AA_digitize_carlos-santos_123rf_14544970.jpg

© Carlos Santos, 123RF

Mit Tesseract und GImageReader Texte digitalisieren

Lesefutter

Gute OCR-Programme für den Desktop sind Mangelware. Mit GImageReader steigt jetzt ein vielversprechender Neuling in den Ring.

Lange Zeit gestaltete sich der Einsatz von Scannern unter Linux aufgrund fehlender oder fehlerhafter Treiber als Glücksspiel. Inzwischen hat sich die Situation durch das Sane-Projekt und das kommerzielle Paket Vuescan [1] deutlich entspannt: Beide unterstützen zuverlässig mehrere Hundert Scanner-Modelle jeder Bauart.

Doch nicht jeder Anwender begnügt sich damit, Papiervorlagen zu scannen und danach als Bilddatei auf dem Massenspeicher abzulegen. Möchte man die digitalisierten Texte weiterverarbeiten, setzt das eine leistungsfähige Texterkennung voraus. Bei sogenannten OCR-Software ("Optical Character Recognition") variiert die Qualität extrem, wobei Linux jedoch inzwischen in der ersten Liga mitspielt.

Die Entwicklung von entsprechender Software gestaltet sich alles andere als trivial: Da Scanner lediglich Rastergrafiken liefern, liegt es am Programm, zunächst die grafischen Elemente auf der Vorlage vom eigentlichen Text zu unterscheiden. Im nächsten Schritt muss die Software Fehler in der Rastergrafik eliminieren.

Schlechte und schief eingescannte Vorlagen oder handschriftlich in einen gedruckten Text eingefügte Symbole, Anmerkungen und Linien verursachen vor allem bei Schwarz-Weiß oder Graustufen-Vorlagen fehlerhafte Pixel, die zu Problemen bei der Erkennung führen. Moderne OCR-Programme verwenden Algorithmen, die Pixel in der Umgebung prüfen und den Scan korrigieren, falls die Muster nicht übereinstimmen.

Anschließend beginnt die eigentliche Arbeit: Die Software gleicht die gefundenen Elemente gegen eine im Programm vorhandene Datenbank mit Mustern ab. Hier gilt grundsätzlich: Je umfangreicher diese Datenbank ausfällt und je mehr Schriftschnitte sie enthält, desto treffsicherer arbeitet die Software im ersten Durchlauf.

In einem

...

Liebe Leserin, lieber Leser,

dieser Artikel ist derzeit nicht in vollem Umfang online zugänglich.

Sie haben die Möglichkeit, diesen Beitrag als PDF zu erwerben. Dazu nutzen Sie bitte die Box unter dem Artikel. Alternativ erweben Sie die Ausgabe als PDF in unserem Online-Shop.

LinuxUser-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift LinuxUser finden Sie im Archiv.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Data Security
jesse james, 18.12.2017 18:04, 1 Antworten
Hallo zusammen! Ich bin PC- Neuling. Ich habe gehört, dass man für Linux keine Firewall und ke...
EasyBCD/NeoGrub
Wolfgang Conrad, 17.12.2017 11:40, 0 Antworten
Hallo zusammen, benutze unter Windows 7 den EasyBCD bzw. NEOgrub, um LinuxMint aus einer ISO Dat...
Huawei
Pit Hampelmann, 13.12.2017 11:35, 2 Antworten
Welches Smartphone ist für euch momentan das beste? Sehe ja die Huawei gerade ganz weit vorne. Bi...
Fernstudium Informatik
Joe Cole, 12.12.2017 10:36, 2 Antworten
Hallo! habe früher als ich 13 Jahre angefangen mit HTML und später Java zu programmieren. Weit...
Installation Linux mint auf stick
Reiner Schulz, 10.12.2017 17:34, 3 Antworten
Hallo, ich hab ein ISO-image mit Linux Mint auf einem Stick untergebracht Jetzt kann ich auch...