AA_digitize_carlos-santos_123rf_14544970.jpg

© Carlos Santos, 123RF

Mit Tesseract und GImageReader Texte digitalisieren

Lesefutter

Gute OCR-Programme für den Desktop sind Mangelware. Mit GImageReader steigt jetzt ein vielversprechender Neuling in den Ring.

Lange Zeit gestaltete sich der Einsatz von Scannern unter Linux aufgrund fehlender oder fehlerhafter Treiber als Glücksspiel. Inzwischen hat sich die Situation durch das Sane-Projekt und das kommerzielle Paket Vuescan [1] deutlich entspannt: Beide unterstützen zuverlässig mehrere Hundert Scanner-Modelle jeder Bauart.

Doch nicht jeder Anwender begnügt sich damit, Papiervorlagen zu scannen und danach als Bilddatei auf dem Massenspeicher abzulegen. Möchte man die digitalisierten Texte weiterverarbeiten, setzt das eine leistungsfähige Texterkennung voraus. Bei sogenannten OCR-Software ("Optical Character Recognition") variiert die Qualität extrem, wobei Linux jedoch inzwischen in der ersten Liga mitspielt.

Die Entwicklung von entsprechender Software gestaltet sich alles andere als trivial: Da Scanner lediglich Rastergrafiken liefern, liegt es am Programm, zunächst die grafischen Elemente auf der Vorlage vom eigentlichen Text zu unterscheiden. Im nächsten Schritt muss die Software Fehler in der Rastergrafik eliminieren.

Schlechte und schief eingescannte Vorlagen oder handschriftlich in einen gedruckten Text eingefügte Symbole, Anmerkungen und Linien verursachen vor allem bei Schwarz-Weiß oder Graustufen-Vorlagen fehlerhafte Pixel, die zu Problemen bei der Erkennung führen. Moderne OCR-Programme verwenden Algorithmen, die Pixel in der Umgebung prüfen und den Scan korrigieren, falls die Muster nicht übereinstimmen.

Anschließend beginnt die eigentliche Arbeit: Die Software gleicht die gefundenen Elemente gegen eine im Programm vorhandene Datenbank mit Mustern ab. Hier gilt grundsätzlich: Je umfangreicher diese Datenbank ausfällt und je mehr Schriftschnitte sie enthält, desto treffsicherer arbeitet die Software im ersten Durchlauf.

In einem

...

Liebe Leserin, lieber Leser,

dieser Artikel ist derzeit nicht in vollem Umfang online zugänglich.

Sie haben die Möglichkeit, diesen Beitrag als PDF zu erwerben. Dazu nutzen Sie bitte die Box unter dem Artikel. Alternativ erweben Sie die Ausgabe als PDF in unserem Online-Shop.

LinuxUser-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift LinuxUser finden Sie im Archiv.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 10/2017: Daten retten & sichern

Digitale Ausgabe: Preis € 8,50
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 2 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...
Backup mit KUP unter Suse 42.3
Horst Schwarz, 24.09.2017 13:16, 3 Antworten
Ich möchte auch wieder unter Suse 42.3 mit Kup meine Backup durchführen. Eine Installationsmöglic...
kein foto, etc. upload möglich, wo liegt mein fehler?
kerstin brums, 17.09.2017 22:08, 5 Antworten
moin, zum erstellen einer einfachen wordpress website kann ich keine fotos uploaden. vom rechne...
Arch Linux Netzwerkkonfigurationen
Franziska Schley, 15.09.2017 18:04, 0 Antworten
Moin liebe Linux community, ich habe momentan Probleme mit der Einstellung des Lan/Wlan in Arc...