Spitzen-Duo

Eines der führenden freien OCR-Programme ist Tesseract (Abbildung #) [1]. Wie die zweite ähnlich leistungsfähige freie OCR-Engine Cuneiform [2] hat das Programm einen kommerziellen Hintergrund, wird aber schon seit Jahren von Google als freie Software weiterentwickelt.

Abb. #: Nicht ganz fehlerfrei, aber dicht dran: Scannen, optische Zeichenerkennung und Korrekturlesen geht mit Tesseract 3 auf jedem Fall schneller als abtippen.

Bis heute können Computer dem menschlichen Gehirn beim Erkennen von optischen Mustern, also auch von Buchstaben, nicht das Wasser reichen: Keine Software trennt Flecken auf dem Papier so sicher von Textzeichen, erkennt Buchstaben trotz Verformung oder errät unleserliche Textpassagen mit so viel Hintergrundwissen wie ein menschlicher Leser.

Auch kommerzielle Texterkennungssoftware wie der für Windows und Mac OS verfügbare Abbyy Finereader [3] arbeitet nicht völlig fehlerfrei. Bei Tesseract, dessen Entwicklung einige Jahre ganz ruhte und auch gegenwärtig nicht allzu schnell voranschreitet, müssen Sie, auch bei kontrastreichen Scans mit 300 dpi Auflösung, mit ein bis zwei Erkennungsfehlern pro Seite rechnen. Seit Version 3 versucht Tesseract, Text in Spalten nicht mehr als durchgängige Zeilen einzulesen, sondern erkennt den Textfluss nun korrekt.

Der mit dem Tool erkannte Text lässt sich mit der Rechtschreibprüfung einer Textverarbeitung korrigieren.

Knapp abgehängt

Den ebenfalls freien Mitspieler Cuneiform überrundet Tesseract höchsten knapp. Genau lässt sich das auch nur schwer differenzieren, denn jede Engine reagiert auf Hürden wie schräg eingescannte Seiten, leicht gezackte Buchstabenränder oder schlechten Kontrast unterschiedlich.

Die Anfang November erschienene Release 3.02.02 verheißt, wie schon der Versionssprung hinter der zweiten Kommastelle erkennen lässt, keine dramatische Verbesserung der Erkennungsgenauigkeit. Tesseract berücksichtigt nun aber erstmals Absätze. Ein wenig Feintuning wandten die Entwickler auch an, die den einen oder anderen Erkennungsfehler verhindern dürfte.

Allerdings bringt die Software keine grafische Oberfläche mit. Abhilfe schafft das in Ausgabe 03/2012 vorgestellte Programm Gscan2PDF, das unter anderem Tesseract für die Texterkennung einbindet. Auch die umfangreiche Scansoftware Xsane [4], für die alle Easy-Linux-Distributionen ein Paket mitbringen, schickt eingescannte Seiten auf Wunsch an eine externe OCR-Engine weiter.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

title_2014_04

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet EUR 9,80. Weitere Informationen zum Heft finden Sie auf der EasyLinux-Homepage.

Das EasyLinux-Jahresabo mit Prämie kostet ab EUR 33,30. Details zum EasyLinux-Jahresabo finden Sie im Medialinx-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

PCLinuxOS Version 2014.08 "FullMonty" Umstellung auf deutsch
Karl-Heinz Welz, 19.12.2014 09:55, 3 Antworten
Hallo, liebe Community, ich bin 63 Jahre alt und möchte jetzt nach Jahrzehnten Windows zu Linux...
ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...
Steuern mit Linux
Siegfried Markner, 01.12.2014 11:56, 2 Antworten
Welches Linux eignet sich am besten für Steuerungen.