Spitzen-Duo

Eines der führenden freien OCR-Programme ist Tesseract (Abbildung #) [1]. Wie die zweite ähnlich leistungsfähige freie OCR-Engine Cuneiform [2] hat das Programm einen kommerziellen Hintergrund, wird aber schon seit Jahren von Google als freie Software weiterentwickelt.

Abb. #: Nicht ganz fehlerfrei, aber dicht dran: Scannen, optische Zeichenerkennung und Korrekturlesen geht mit Tesseract 3 auf jedem Fall schneller als abtippen.

Bis heute können Computer dem menschlichen Gehirn beim Erkennen von optischen Mustern, also auch von Buchstaben, nicht das Wasser reichen: Keine Software trennt Flecken auf dem Papier so sicher von Textzeichen, erkennt Buchstaben trotz Verformung oder errät unleserliche Textpassagen mit so viel Hintergrundwissen wie ein menschlicher Leser.

Auch kommerzielle Texterkennungssoftware wie der für Windows und Mac OS verfügbare Abbyy Finereader [3] arbeitet nicht völlig fehlerfrei. Bei Tesseract, dessen Entwicklung einige Jahre ganz ruhte und auch gegenwärtig nicht allzu schnell voranschreitet, müssen Sie, auch bei kontrastreichen Scans mit 300 dpi Auflösung, mit ein bis zwei Erkennungsfehlern pro Seite rechnen. Seit Version 3 versucht Tesseract, Text in Spalten nicht mehr als durchgängige Zeilen einzulesen, sondern erkennt den Textfluss nun korrekt.

Der mit dem Tool erkannte Text lässt sich mit der Rechtschreibprüfung einer Textverarbeitung korrigieren.

Knapp abgehängt

Den ebenfalls freien Mitspieler Cuneiform überrundet Tesseract höchsten knapp. Genau lässt sich das auch nur schwer differenzieren, denn jede Engine reagiert auf Hürden wie schräg eingescannte Seiten, leicht gezackte Buchstabenränder oder schlechten Kontrast unterschiedlich.

Die Anfang November erschienene Release 3.02.02 verheißt, wie schon der Versionssprung hinter der zweiten Kommastelle erkennen lässt, keine dramatische Verbesserung der Erkennungsgenauigkeit. Tesseract berücksichtigt nun aber erstmals Absätze. Ein wenig Feintuning wandten die Entwickler auch an, die den einen oder anderen Erkennungsfehler verhindern dürfte.

Allerdings bringt die Software keine grafische Oberfläche mit. Abhilfe schafft das in Ausgabe 03/2012 vorgestellte Programm Gscan2PDF, das unter anderem Tesseract für die Texterkennung einbindet. Auch die umfangreiche Scansoftware Xsane [4], für die alle Easy-Linux-Distributionen ein Paket mitbringen, schickt eingescannte Seiten auf Wunsch an eine externe OCR-Engine weiter.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

EL 03/2016: Sicher im Internet

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Aktuelle Fragen

NOKIA N900 einziges Linux-Smartphone? Kein Support mehr
Wimpy *, 28.08.2016 11:09, 1 Antworten
Ich habe seit vielen Jahren ein Nokia N900 mit Maemo-Linux. Es funktioniert einwandfrei, aber ich...
Scannen nicht möglich
Werner Hahn, 19.08.2016 22:33, 3 Antworten
Laptop DELL Latitude E6510 mit Ubuntu 16,04, Canon Pixma MG5450. Das Drucken funktioniert, Scann...
Wie kann man das berichtigen
Udo Muelle, 17.07.2016 20:39, 1 Antworten
Fehlschlag beim Holen von http://extra.linuxmint.com/dists/rosa/main/binary-i386/Packages Hash-S...
Installation Genimotion
Horst Müller, 15.07.2016 17:00, 1 Antworten
Hallo, ich kann Genimotion nicht installieren. Folgende Fehlermeldung habe ich beim Aufruf erh...
Probleme beim Hochfahren der Terastaion 5400 mit Unix-Distrib
Sheldon Cooper, 10.07.2016 09:32, 0 Antworten
Hallo ihr lieben, habe seit zwei Tagen das Problem, das das NAS (Raid5) nicht mehr sauber hoch...