Erkennungsraten

Im Test verwendeten wir für beide Oberflächen unterschiedliche Vorlagen, die neben verschiedenen Schriftgrößen auch serifenhaltige wie serifenlose Schrifttypen beinhalteten. Zusätzlich zogen wir einen Textausschnitt mit kyrillischem Zeichensatz heran, um die Qualität der Texterkennung beurteilen zu können.

Das auch von den einstellbaren Optionen her sehr einfach gehaltene Cuneiform-Qt hatte wie bereits erwähnt Probleme, andere Bilddateiformate als BMP zu erkennen. Die weit verbreiteten Bildformate PNG und TIFF liest es nicht ein. Die Erkennungsgenauigkeit von Text in BMP-Dateien lässt unter Cuneiform-Qt keinerlei Wünsche offen, sofern die Vorlage ausreichend scharf ausfällt und die Schriftgröße über zehn Punkt liegt. Kleinere Schriftgrößen oder unscharf gescannte Vorlagen (wie sie beispielsweise beim Einlesen von Buchseiten am Buchrücken auftreten) bringen Cuneiform-Qt aus dem Konzept. Auch durch Staubkörner oder Fusseln auf der Scannerscheibe verursachte Punkte und optische Mängel in der Bilddatei führen in vielen Fällen zu fehlerhaften Scanergebnissen.

Bei dahingehend optimierten Vorlagen liefert Cuneiform-Qt jedoch erstklassige Ergebnisse. Die Erkennungssoftware schafft es bei entsprechender Vorlagenqualität sogar, problematische ähnliche Zeichen wie "S" und "5" oder "B" und "8" durch eine kontextsensitive Methode zuverlässig auseinanderzuhalten. Auch der Wechsel von Schriftattributen, wie beispielsweise bei fett gedruckten und kursiven Textteilen, stellt Cuneiform-Qt vor keinerlei Probleme. Ähnliches gilt für fremdsprachige Texte. Sowohl ein französischsprachiger Text mit den entsprechenden Sonderzeichen als auch ein kyrillischer Text brachten die Software nicht in Verlegenheit.

YAGF erfreut mit ähnlich erstklassigen Texterkennungsraten bei optimierten Vorlagen. Auch hier gilt, dass die Schriftgröße nicht zu klein ausfallen darf und die Schrift scharf gezeichnet sein müssen, um zu sehr guten Erkennungsergebnissen zu führen. YAGF kommt jedoch anders als Cuneiform-Qt auch mit anderen Quelldateiformaten als BMP zurecht. Zudem bietet es durch die Option, querformatige Vorlagen um 90 Grad zu drehen und damit überhaupt erst erkennungstauglich zu machen, deutlich mehr Flexibilität gegeben. Schließlich hat YAGF den Vorteil, mehr fremdsprachige Zeichensätze per Optionsauswahl zu unterstützen als Cuneiform-Qt (Abbildung 5).

Abbildung 5: Auch russische Texte erkennt YAGF zuverlässig.

Optimierung

Um insbesondere bei mehrseitigen Vorlagen befriedigende Erkennungsergebnisse zu erzielen und damit erheblichen Arbeitsaufwand für manuelle Korrekturen einzusparen, sollten Sie eingescannte Bildvorlagen gegebenenfalls zunächst in Gimp optimieren. Bei unseren Tests erbrachte diese Vorgehensweise unabhängig vom verwendeten Zeichensatz deutlich verbesserte Erkennungsresultate.

Bei unscharf gescannten Vorlagen heben Sie das Bild in Gimp über Filter | Verbessern | Schärfen auf ein brauchbares Niveau. Fällt die Schriftgröße der Vorlage sehr klein aus, vergrößern Sie den Scan mithilfe der Funktion Bild | Bild skalieren. Bedenken Sie dabei bitte, dass die Skalierung je nach Vergrößerungsfaktor zu einer deutlich sichtbaren Unschärfe der Schriftzeichen führen kann, sodass Sie die Vorlage gegebenenfalls anschließend noch schärfen müssen.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise.
Kommentare
Unzulänglich
ich (unangemeldet), Donnerstag, 14. April 2011 18:50:49
Ein/Ausklappen

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.



Bewertung: 120 Punkte bei 10 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 12/2014: ANONYM & SICHER

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...