Erkennungsraten

Im Test verwendeten wir für beide Oberflächen unterschiedliche Vorlagen, die neben verschiedenen Schriftgrößen auch serifenhaltige wie serifenlose Schrifttypen beinhalteten. Zusätzlich zogen wir einen Textausschnitt mit kyrillischem Zeichensatz heran, um die Qualität der Texterkennung beurteilen zu können.

Das auch von den einstellbaren Optionen her sehr einfach gehaltene Cuneiform-Qt hatte wie bereits erwähnt Probleme, andere Bilddateiformate als BMP zu erkennen. Die weit verbreiteten Bildformate PNG und TIFF liest es nicht ein. Die Erkennungsgenauigkeit von Text in BMP-Dateien lässt unter Cuneiform-Qt keinerlei Wünsche offen, sofern die Vorlage ausreichend scharf ausfällt und die Schriftgröße über zehn Punkt liegt. Kleinere Schriftgrößen oder unscharf gescannte Vorlagen (wie sie beispielsweise beim Einlesen von Buchseiten am Buchrücken auftreten) bringen Cuneiform-Qt aus dem Konzept. Auch durch Staubkörner oder Fusseln auf der Scannerscheibe verursachte Punkte und optische Mängel in der Bilddatei führen in vielen Fällen zu fehlerhaften Scanergebnissen.

Bei dahingehend optimierten Vorlagen liefert Cuneiform-Qt jedoch erstklassige Ergebnisse. Die Erkennungssoftware schafft es bei entsprechender Vorlagenqualität sogar, problematische ähnliche Zeichen wie "S" und "5" oder "B" und "8" durch eine kontextsensitive Methode zuverlässig auseinanderzuhalten. Auch der Wechsel von Schriftattributen, wie beispielsweise bei fett gedruckten und kursiven Textteilen, stellt Cuneiform-Qt vor keinerlei Probleme. Ähnliches gilt für fremdsprachige Texte. Sowohl ein französischsprachiger Text mit den entsprechenden Sonderzeichen als auch ein kyrillischer Text brachten die Software nicht in Verlegenheit.

YAGF erfreut mit ähnlich erstklassigen Texterkennungsraten bei optimierten Vorlagen. Auch hier gilt, dass die Schriftgröße nicht zu klein ausfallen darf und die Schrift scharf gezeichnet sein müssen, um zu sehr guten Erkennungsergebnissen zu führen. YAGF kommt jedoch anders als Cuneiform-Qt auch mit anderen Quelldateiformaten als BMP zurecht. Zudem bietet es durch die Option, querformatige Vorlagen um 90 Grad zu drehen und damit überhaupt erst erkennungstauglich zu machen, deutlich mehr Flexibilität gegeben. Schließlich hat YAGF den Vorteil, mehr fremdsprachige Zeichensätze per Optionsauswahl zu unterstützen als Cuneiform-Qt (Abbildung 5).

Abbildung 5: Auch russische Texte erkennt YAGF zuverlässig.

Optimierung

Um insbesondere bei mehrseitigen Vorlagen befriedigende Erkennungsergebnisse zu erzielen und damit erheblichen Arbeitsaufwand für manuelle Korrekturen einzusparen, sollten Sie eingescannte Bildvorlagen gegebenenfalls zunächst in Gimp optimieren. Bei unseren Tests erbrachte diese Vorgehensweise unabhängig vom verwendeten Zeichensatz deutlich verbesserte Erkennungsresultate.

Bei unscharf gescannten Vorlagen heben Sie das Bild in Gimp über Filter | Verbessern | Schärfen auf ein brauchbares Niveau. Fällt die Schriftgröße der Vorlage sehr klein aus, vergrößern Sie den Scan mithilfe der Funktion Bild | Bild skalieren. Bedenken Sie dabei bitte, dass die Skalierung je nach Vergrößerungsfaktor zu einer deutlich sichtbaren Unschärfe der Schriftzeichen führen kann, sodass Sie die Vorlage gegebenenfalls anschließend noch schärfen müssen.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise.
Kommentare
Unzulänglich
ich (unangemeldet), Donnerstag, 14. April 2011 18:50:49
Ein/Ausklappen

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.



Bewertung: 197 Punkte bei 66 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 06/2017: System im Griff

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

Anfänger Frage
Klaus Müller, 24.05.2017 14:25, 2 Antworten
Hallo erstmal. Habe von linux nicht so viel erfahrung müsste aber mal ne doofe frage stellen. A...
Knoppix-Live-CD (8.0 LU-Edition) im Uefiboot?
Thomas Weiss, 26.04.2017 20:38, 3 Antworten
Hallo, Da mein Rechner unter Windows 8.1/64Bit ein Soundproblem hat und ich abklären wollte, o...
Grub2 reparieren
Brain Stuff, 26.04.2017 02:04, 5 Antworten
Ein Windows Update hat mir Grub zerschossen ... der Computer startet nicht mehr mit Grub, sondern...
Linux open suse 2,8
Wolfgang Gerhard Zeidler, 18.04.2017 09:17, 2 Antworten
Hallo.bitte um Hilfe bei. Code fuer den Rescue-login open suse2.8 Mfg Yvo
grep und sed , gleicher Regulärer Ausdruck , sed mit falschem Ergebnis.
Josef Federl, 15.04.2017 00:23, 1 Antworten
Daten: dlfkjgkldgjldfgl55.55klsdjfl jfjfjfj8.22fdgddfg {"id":"1","name":"Phase L1","unit":"A",...