Spitzen-Duo

Eines der führenden freien OCR-Programme ist Tesseract (Abbildung #) [1]. Wie die zweite ähnlich leistungsfähige freie OCR-Engine Cuneiform [2] hat das Programm einen kommerziellen Hintergrund, wird aber schon seit Jahren von Google als freie Software weiterentwickelt.

Abb. #: Nicht ganz fehlerfrei, aber dicht dran: Scannen, optische Zeichenerkennung und Korrekturlesen geht mit Tesseract 3 auf jedem Fall schneller als abtippen.

Bis heute können Computer dem menschlichen Gehirn beim Erkennen von optischen Mustern, also auch von Buchstaben, nicht das Wasser reichen: Keine Software trennt Flecken auf dem Papier so sicher von Textzeichen, erkennt Buchstaben trotz Verformung oder errät unleserliche Textpassagen mit so viel Hintergrundwissen wie ein menschlicher Leser.

Auch kommerzielle Texterkennungssoftware wie der für Windows und Mac OS verfügbare Abbyy Finereader [3] arbeitet nicht völlig fehlerfrei. Bei Tesseract, dessen Entwicklung einige Jahre ganz ruhte und auch gegenwärtig nicht allzu schnell voranschreitet, müssen Sie, auch bei kontrastreichen Scans mit 300 dpi Auflösung, mit ein bis zwei Erkennungsfehlern pro Seite rechnen. Seit Version 3 versucht Tesseract, Text in Spalten nicht mehr als durchgängige Zeilen einzulesen, sondern erkennt den Textfluss nun korrekt.

Der mit dem Tool erkannte Text lässt sich mit der Rechtschreibprüfung einer Textverarbeitung korrigieren.

Knapp abgehängt

Den ebenfalls freien Mitspieler Cuneiform überrundet Tesseract höchsten knapp. Genau lässt sich das auch nur schwer differenzieren, denn jede Engine reagiert auf Hürden wie schräg eingescannte Seiten, leicht gezackte Buchstabenränder oder schlechten Kontrast unterschiedlich.

Die Anfang November erschienene Release 3.02.02 verheißt, wie schon der Versionssprung hinter der zweiten Kommastelle erkennen lässt, keine dramatische Verbesserung der Erkennungsgenauigkeit. Tesseract berücksichtigt nun aber erstmals Absätze. Ein wenig Feintuning wandten die Entwickler auch an, die den einen oder anderen Erkennungsfehler verhindern dürfte.

Allerdings bringt die Software keine grafische Oberfläche mit. Abhilfe schafft das in Ausgabe 03/2012 vorgestellte Programm Gscan2PDF, das unter anderem Tesseract für die Texterkennung einbindet. Auch die umfangreiche Scansoftware Xsane [4], für die alle Easy-Linux-Distributionen ein Paket mitbringen, schickt eingescannte Seiten auf Wunsch an eine externe OCR-Engine weiter.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

EL 11/2017-01/2018: Einstieg in Linux

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Stellenmarkt

Aktuelle Fragen

Broadcom Adapter 802.11n nachinstallieren
Thomas Mengel, 31.10.2017 20:06, 2 Antworten
Hallo, kann man nachträglich auf einer Liveversion, MX Linux auf einem USB-Stick, nachträglich...
RUN fsck Manually / Stromausfall
Arno Krug, 29.10.2017 12:51, 1 Antworten
Hallo, nach Absturz des Rechners aufgrund fehlendem Stroms startet Linux nicht mehr wie gewohn...
source.list öffnet sich nicht
sebastian reimann, 27.10.2017 09:32, 2 Antworten
hallo Zusammen Ich habe das problem Das ich meine source.list nicht öffnen kann weiß vlt jemman...
Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 6 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...