Spitzen-Duo

Eines der führenden freien OCR-Programme ist Tesseract (Abbildung #) [1]. Wie die zweite ähnlich leistungsfähige freie OCR-Engine Cuneiform [2] hat das Programm einen kommerziellen Hintergrund, wird aber schon seit Jahren von Google als freie Software weiterentwickelt.

Abb. #: Nicht ganz fehlerfrei, aber dicht dran: Scannen, optische Zeichenerkennung und Korrekturlesen geht mit Tesseract 3 auf jedem Fall schneller als abtippen.

Bis heute können Computer dem menschlichen Gehirn beim Erkennen von optischen Mustern, also auch von Buchstaben, nicht das Wasser reichen: Keine Software trennt Flecken auf dem Papier so sicher von Textzeichen, erkennt Buchstaben trotz Verformung oder errät unleserliche Textpassagen mit so viel Hintergrundwissen wie ein menschlicher Leser.

Auch kommerzielle Texterkennungssoftware wie der für Windows und Mac OS verfügbare Abbyy Finereader [3] arbeitet nicht völlig fehlerfrei. Bei Tesseract, dessen Entwicklung einige Jahre ganz ruhte und auch gegenwärtig nicht allzu schnell voranschreitet, müssen Sie, auch bei kontrastreichen Scans mit 300 dpi Auflösung, mit ein bis zwei Erkennungsfehlern pro Seite rechnen. Seit Version 3 versucht Tesseract, Text in Spalten nicht mehr als durchgängige Zeilen einzulesen, sondern erkennt den Textfluss nun korrekt.

Der mit dem Tool erkannte Text lässt sich mit der Rechtschreibprüfung einer Textverarbeitung korrigieren.

Knapp abgehängt

Den ebenfalls freien Mitspieler Cuneiform überrundet Tesseract höchsten knapp. Genau lässt sich das auch nur schwer differenzieren, denn jede Engine reagiert auf Hürden wie schräg eingescannte Seiten, leicht gezackte Buchstabenränder oder schlechten Kontrast unterschiedlich.

Die Anfang November erschienene Release 3.02.02 verheißt, wie schon der Versionssprung hinter der zweiten Kommastelle erkennen lässt, keine dramatische Verbesserung der Erkennungsgenauigkeit. Tesseract berücksichtigt nun aber erstmals Absätze. Ein wenig Feintuning wandten die Entwickler auch an, die den einen oder anderen Erkennungsfehler verhindern dürfte.

Allerdings bringt die Software keine grafische Oberfläche mit. Abhilfe schafft das in Ausgabe 03/2012 vorgestellte Programm Gscan2PDF, das unter anderem Tesseract für die Texterkennung einbindet. Auch die umfangreiche Scansoftware Xsane [4], für die alle Easy-Linux-Distributionen ein Paket mitbringen, schickt eingescannte Seiten auf Wunsch an eine externe OCR-Engine weiter.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

EL 08-10/2017: BACKUP

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Aktuelle Fragen

IT-Kurse
Alice Trader, 26.09.2017 11:35, 1 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...
Backup mit KUP unter Suse 42.3
Horst Schwarz, 24.09.2017 13:16, 1 Antworten
Ich möchte auch wieder unter Suse 42.3 mit Kup meine Backup durchführen. Eine Installationsmöglic...
kein foto, etc. upload möglich, wo liegt mein fehler?
kerstin brums, 17.09.2017 22:08, 5 Antworten
moin, zum erstellen einer einfachen wordpress website kann ich keine fotos uploaden. vom rechne...
Arch Linux Netzwerkkonfigurationen
Franziska Schley, 15.09.2017 18:04, 0 Antworten
Moin liebe Linux community, ich habe momentan Probleme mit der Einstellung des Lan/Wlan in Arc...
WLan mit altem Notebook funktioniert nicht mehr
Stefan Jahn, 22.08.2017 15:13, 0 Antworten
Ich habe ein altes Compaq-6710b Notebook mit Linux Mint Sonya bei dem WLan neulich noch funktioni...