Spitzen-Duo

Eines der führenden freien OCR-Programme ist Tesseract (Abbildung #) [1]. Wie die zweite ähnlich leistungsfähige freie OCR-Engine Cuneiform [2] hat das Programm einen kommerziellen Hintergrund, wird aber schon seit Jahren von Google als freie Software weiterentwickelt.

Abb. #: Nicht ganz fehlerfrei, aber dicht dran: Scannen, optische Zeichenerkennung und Korrekturlesen geht mit Tesseract 3 auf jedem Fall schneller als abtippen.

Bis heute können Computer dem menschlichen Gehirn beim Erkennen von optischen Mustern, also auch von Buchstaben, nicht das Wasser reichen: Keine Software trennt Flecken auf dem Papier so sicher von Textzeichen, erkennt Buchstaben trotz Verformung oder errät unleserliche Textpassagen mit so viel Hintergrundwissen wie ein menschlicher Leser.

Auch kommerzielle Texterkennungssoftware wie der für Windows und Mac OS verfügbare Abbyy Finereader [3] arbeitet nicht völlig fehlerfrei. Bei Tesseract, dessen Entwicklung einige Jahre ganz ruhte und auch gegenwärtig nicht allzu schnell voranschreitet, müssen Sie, auch bei kontrastreichen Scans mit 300 dpi Auflösung, mit ein bis zwei Erkennungsfehlern pro Seite rechnen. Seit Version 3 versucht Tesseract, Text in Spalten nicht mehr als durchgängige Zeilen einzulesen, sondern erkennt den Textfluss nun korrekt.

Der mit dem Tool erkannte Text lässt sich mit der Rechtschreibprüfung einer Textverarbeitung korrigieren.

Knapp abgehängt

Den ebenfalls freien Mitspieler Cuneiform überrundet Tesseract höchsten knapp. Genau lässt sich das auch nur schwer differenzieren, denn jede Engine reagiert auf Hürden wie schräg eingescannte Seiten, leicht gezackte Buchstabenränder oder schlechten Kontrast unterschiedlich.

Die Anfang November erschienene Release 3.02.02 verheißt, wie schon der Versionssprung hinter der zweiten Kommastelle erkennen lässt, keine dramatische Verbesserung der Erkennungsgenauigkeit. Tesseract berücksichtigt nun aber erstmals Absätze. Ein wenig Feintuning wandten die Entwickler auch an, die den einen oder anderen Erkennungsfehler verhindern dürfte.

Allerdings bringt die Software keine grafische Oberfläche mit. Abhilfe schafft das in Ausgabe 03/2012 vorgestellte Programm Gscan2PDF, das unter anderem Tesseract für die Texterkennung einbindet. Auch die umfangreiche Scansoftware Xsane [4], für die alle Easy-Linux-Distributionen ein Paket mitbringen, schickt eingescannte Seiten auf Wunsch an eine externe OCR-Engine weiter.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

EL 08-10/2017: BACKUP

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Aktuelle Fragen

Bash awk Verständnis-Frage
Josef Federl, 22.07.2017 17:46, 2 Antworten
#!/bin/bash # Skriptdateiname = test.sh spaltennummer=10 wert=zehner awk '{ $'$spaltennummer'...
Bash - verschachtelte Variablenersetzung, das geht doch eleganter als meine Lösung?
Josef Federl, 18.07.2017 20:24, 2 Antworten
#!/bin/bash #Ziel des Skriptes wird sein die ID zu extrahieren hier nur als Consolentest: root@...
Speicherplatzfreigabe mit "sudo apt-get clean" scheitert
Siegfried Böttcher, 16.07.2017 21:16, 2 Antworten
Speicherplatzfreigabe mit "sudo apt-get clean" scheitert, weil aus mir unerfindlichen Gründen im...
Möchte Zattoo vom PC am Fernsehgerät sehen können
Ilona Nikoui, 15.07.2017 18:25, 3 Antworten
Hallo, ich habe mein Fernsehgerät, ein LG 26LE3300 mit dem PC verbunden per HDMI Kabel, wie empfo...
TUXEDO und Hardwareauswahl , fragwürdig / Kritik
Josef Federl, 11.07.2017 12:44, 7 Antworten
Auf tuxedocomputers.com steht: "....Aber wir können auch Linux und das so, dass "einfach" alles...