Erkennungsraten

Im Test verwendeten wir für beide Oberflächen unterschiedliche Vorlagen, die neben verschiedenen Schriftgrößen auch serifenhaltige wie serifenlose Schrifttypen beinhalteten. Zusätzlich zogen wir einen Textausschnitt mit kyrillischem Zeichensatz heran, um die Qualität der Texterkennung beurteilen zu können.

Das auch von den einstellbaren Optionen her sehr einfach gehaltene Cuneiform-Qt hatte wie bereits erwähnt Probleme, andere Bilddateiformate als BMP zu erkennen. Die weit verbreiteten Bildformate PNG und TIFF liest es nicht ein. Die Erkennungsgenauigkeit von Text in BMP-Dateien lässt unter Cuneiform-Qt keinerlei Wünsche offen, sofern die Vorlage ausreichend scharf ausfällt und die Schriftgröße über zehn Punkt liegt. Kleinere Schriftgrößen oder unscharf gescannte Vorlagen (wie sie beispielsweise beim Einlesen von Buchseiten am Buchrücken auftreten) bringen Cuneiform-Qt aus dem Konzept. Auch durch Staubkörner oder Fusseln auf der Scannerscheibe verursachte Punkte und optische Mängel in der Bilddatei führen in vielen Fällen zu fehlerhaften Scanergebnissen.

Bei dahingehend optimierten Vorlagen liefert Cuneiform-Qt jedoch erstklassige Ergebnisse. Die Erkennungssoftware schafft es bei entsprechender Vorlagenqualität sogar, problematische ähnliche Zeichen wie "S" und "5" oder "B" und "8" durch eine kontextsensitive Methode zuverlässig auseinanderzuhalten. Auch der Wechsel von Schriftattributen, wie beispielsweise bei fett gedruckten und kursiven Textteilen, stellt Cuneiform-Qt vor keinerlei Probleme. Ähnliches gilt für fremdsprachige Texte. Sowohl ein französischsprachiger Text mit den entsprechenden Sonderzeichen als auch ein kyrillischer Text brachten die Software nicht in Verlegenheit.

YAGF erfreut mit ähnlich erstklassigen Texterkennungsraten bei optimierten Vorlagen. Auch hier gilt, dass die Schriftgröße nicht zu klein ausfallen darf und die Schrift scharf gezeichnet sein müssen, um zu sehr guten Erkennungsergebnissen zu führen. YAGF kommt jedoch anders als Cuneiform-Qt auch mit anderen Quelldateiformaten als BMP zurecht. Zudem bietet es durch die Option, querformatige Vorlagen um 90 Grad zu drehen und damit überhaupt erst erkennungstauglich zu machen, deutlich mehr Flexibilität gegeben. Schließlich hat YAGF den Vorteil, mehr fremdsprachige Zeichensätze per Optionsauswahl zu unterstützen als Cuneiform-Qt (Abbildung 5).

Abbildung 5: Auch russische Texte erkennt YAGF zuverlässig.

Optimierung

Um insbesondere bei mehrseitigen Vorlagen befriedigende Erkennungsergebnisse zu erzielen und damit erheblichen Arbeitsaufwand für manuelle Korrekturen einzusparen, sollten Sie eingescannte Bildvorlagen gegebenenfalls zunächst in Gimp optimieren. Bei unseren Tests erbrachte diese Vorgehensweise unabhängig vom verwendeten Zeichensatz deutlich verbesserte Erkennungsresultate.

Bei unscharf gescannten Vorlagen heben Sie das Bild in Gimp über Filter | Verbessern | Schärfen auf ein brauchbares Niveau. Fällt die Schriftgröße der Vorlage sehr klein aus, vergrößern Sie den Scan mithilfe der Funktion Bild | Bild skalieren. Bedenken Sie dabei bitte, dass die Skalierung je nach Vergrößerungsfaktor zu einer deutlich sichtbaren Unschärfe der Schriftzeichen führen kann, sodass Sie die Vorlage gegebenenfalls anschließend noch schärfen müssen.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise.
Kommentare
Unzulänglich
ich (unangemeldet), Donnerstag, 14. April 2011 18:50:49
Ein/Ausklappen

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.



Bewertung: 120 Punkte bei 10 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...