Erkennungsraten

Im Test verwendeten wir für beide Oberflächen unterschiedliche Vorlagen, die neben verschiedenen Schriftgrößen auch serifenhaltige wie serifenlose Schrifttypen beinhalteten. Zusätzlich zogen wir einen Textausschnitt mit kyrillischem Zeichensatz heran, um die Qualität der Texterkennung beurteilen zu können.

Das auch von den einstellbaren Optionen her sehr einfach gehaltene Cuneiform-Qt hatte wie bereits erwähnt Probleme, andere Bilddateiformate als BMP zu erkennen. Die weit verbreiteten Bildformate PNG und TIFF liest es nicht ein. Die Erkennungsgenauigkeit von Text in BMP-Dateien lässt unter Cuneiform-Qt keinerlei Wünsche offen, sofern die Vorlage ausreichend scharf ausfällt und die Schriftgröße über zehn Punkt liegt. Kleinere Schriftgrößen oder unscharf gescannte Vorlagen (wie sie beispielsweise beim Einlesen von Buchseiten am Buchrücken auftreten) bringen Cuneiform-Qt aus dem Konzept. Auch durch Staubkörner oder Fusseln auf der Scannerscheibe verursachte Punkte und optische Mängel in der Bilddatei führen in vielen Fällen zu fehlerhaften Scanergebnissen.

Bei dahingehend optimierten Vorlagen liefert Cuneiform-Qt jedoch erstklassige Ergebnisse. Die Erkennungssoftware schafft es bei entsprechender Vorlagenqualität sogar, problematische ähnliche Zeichen wie "S" und "5" oder "B" und "8" durch eine kontextsensitive Methode zuverlässig auseinanderzuhalten. Auch der Wechsel von Schriftattributen, wie beispielsweise bei fett gedruckten und kursiven Textteilen, stellt Cuneiform-Qt vor keinerlei Probleme. Ähnliches gilt für fremdsprachige Texte. Sowohl ein französischsprachiger Text mit den entsprechenden Sonderzeichen als auch ein kyrillischer Text brachten die Software nicht in Verlegenheit.

YAGF erfreut mit ähnlich erstklassigen Texterkennungsraten bei optimierten Vorlagen. Auch hier gilt, dass die Schriftgröße nicht zu klein ausfallen darf und die Schrift scharf gezeichnet sein müssen, um zu sehr guten Erkennungsergebnissen zu führen. YAGF kommt jedoch anders als Cuneiform-Qt auch mit anderen Quelldateiformaten als BMP zurecht. Zudem bietet es durch die Option, querformatige Vorlagen um 90 Grad zu drehen und damit überhaupt erst erkennungstauglich zu machen, deutlich mehr Flexibilität gegeben. Schließlich hat YAGF den Vorteil, mehr fremdsprachige Zeichensätze per Optionsauswahl zu unterstützen als Cuneiform-Qt (Abbildung 5).

Abbildung 5: Auch russische Texte erkennt YAGF zuverlässig.

Optimierung

Um insbesondere bei mehrseitigen Vorlagen befriedigende Erkennungsergebnisse zu erzielen und damit erheblichen Arbeitsaufwand für manuelle Korrekturen einzusparen, sollten Sie eingescannte Bildvorlagen gegebenenfalls zunächst in Gimp optimieren. Bei unseren Tests erbrachte diese Vorgehensweise unabhängig vom verwendeten Zeichensatz deutlich verbesserte Erkennungsresultate.

Bei unscharf gescannten Vorlagen heben Sie das Bild in Gimp über Filter | Verbessern | Schärfen auf ein brauchbares Niveau. Fällt die Schriftgröße der Vorlage sehr klein aus, vergrößern Sie den Scan mithilfe der Funktion Bild | Bild skalieren. Bedenken Sie dabei bitte, dass die Skalierung je nach Vergrößerungsfaktor zu einer deutlich sichtbaren Unschärfe der Schriftzeichen führen kann, sodass Sie die Vorlage gegebenenfalls anschließend noch schärfen müssen.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise.
Kommentare
Unzulänglich
ich (unangemeldet), Donnerstag, 14. April 2011 18:50:49
Ein/Ausklappen

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.



Bewertung: 207 Punkte bei 78 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 10/2017: Daten retten & sichern

Digitale Ausgabe: Preis € 8,50
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

IT-Kurse
Alice Trader, 26.09.2017 11:35, 1 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...
Backup mit KUP unter Suse 42.3
Horst Schwarz, 24.09.2017 13:16, 1 Antworten
Ich möchte auch wieder unter Suse 42.3 mit Kup meine Backup durchführen. Eine Installationsmöglic...
kein foto, etc. upload möglich, wo liegt mein fehler?
kerstin brums, 17.09.2017 22:08, 5 Antworten
moin, zum erstellen einer einfachen wordpress website kann ich keine fotos uploaden. vom rechne...
Arch Linux Netzwerkkonfigurationen
Franziska Schley, 15.09.2017 18:04, 0 Antworten
Moin liebe Linux community, ich habe momentan Probleme mit der Einstellung des Lan/Wlan in Arc...
WLan mit altem Notebook funktioniert nicht mehr
Stefan Jahn, 22.08.2017 15:13, 0 Antworten
Ich habe ein altes Compaq-6710b Notebook mit Linux Mint Sonya bei dem WLan neulich noch funktioni...