AA_lettuce_talk2frank_sxc_1150594.jpg

© talk2frank, sxc.hu

Buchstabensalat

Texterkennung mit Tesseract

08.04.2011
Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.

Das entwickeln einer Zeichenerkennungssoftware gehört zu den schwierigsten Aufgaben beim Programmieren von Applikation. Obwohl solche Tools im Büroalltag vor allem beim professionellen Dokumentenmanagement schon aufgrund gesetzlicher Vorschriften nahezu unentbehrlich sind, gibt es nur wenige ausgereifte Applikationen in dieser Disziplin. Unter Linux herrschte beim Thema OCR-Software lange Zeit eisiges Schweigen. Mittlerweile schicken sich verschiedene Projekte mit unterschiedlichen Schwerpunkten und innovativen Technologien an, um zu den gängigen Industriestandards aufzuschließen. Zu den ältesten OCR-Programmen, dessen Anfänge bis in das Jahr 1985 zurückreichen, gehört Tesseract [1]. Die ursprünglich vom US-Computerriesen Hewlett-Packard entwickelte Software steht nach einer wechselvollen Geschichte nunmehr unter der Obhut von Google und dient unter anderem als Grundlage für den Dienst Google Books.

Installation mit Hürden

Da sich die Software bereits bei praktisch allen gängigen Linux-Distributionen in den Repositories befindet, ist eine schnelle Installation über die grafische Oberfläche mithilfe von Synaptics, dem Kontrollzentrum von Mandriva oder YaST möglich. Durch den modularen Aufbau des Programms benötigen Sie jedoch – sofern Sie andere als englischsprachige Texte bearbeiten wollen – mindestens ein entsprechendes zusätzliches Sprachmodul.

Tesseract bietet solche Module für alle Weltsprachen an. Als besonderes Alleinstellungsmerkmal liegt außerdem ein Sprachmodul für deutsche Frakturschriften vor, welches zu den Kandidaten in diesem Test gehört. Allerdings handhaben die Linux-Distributionen die Installation der Sprachmodule etwas unterschiedlich: Während Mandriva 2010.1 sofort eine Liste mit den vorhandenen Idiomen zur Auswahl anbot, lief bei einem frisch aufgesetzten Ubuntu 10.04 die Installation ohne einen entsprechenden Hinweis durch. In der Folge kam es zu katastrophalen Testergebnissen beim ersten Arbeiten.

Dieser Mangel in Ubuntus Installationsroutine führt zu einer ebenfalls mangelhaften Modulauswahl bei Tesseract. Ubuntu-Nutzer sollten daher gleich nach dem frischen Aufsetzen des Betriebssystems die Lokalisierung vervollständigen, um anschließend Software entsprechend den regionalen Bedingungen optimal zu installieren. Haben Sie die entsprechenden Module auf die Platte gehoben, ist Tesseract einsatzbereit für die Arbeit mit deutschen Texten.

Kapriziöse GUI

Die Entwickler haben Tesseract auf das Einlesen und Erkennen von großen Textmengen hin optimiert – ähnlich wie Cuneiform. Da die Software verfügt über keine grafische Benutzeroberfläche und erlaubt zudem den unbeaufsichtigen Einsatz im Batch-Betrieb. Wie beim Konkurrenten Cuneiform gibt es jedoch für Anwender, die nicht automatisiert ganze Bibliotheken digitalisieren möchten, mehrere grafische Aufsätze zu Tesseract.

Als erster Kandidat kommt im Test die noch sehr junge Oberfläche OCRGui zum Einsatz, die im Netz [2] oder auf der Heft-DVD als RPM-Paket oder Tar.gz-Archiv erhältlich ist und eine ähnliche Oberfläche bietet, wie Yagf für Cuneiform. Die Installation unter Mandriva 2010.1 verlief ohne Probleme, beim Aufruf des Programms führte jedoch das Anklicken des Einstellungsdialogs wiederholt zum sofortigen Absturz der Software, so dass es nicht möglich war, die nötigen Angaben zu Pfaden, Schriften und der OCR-Engine Tesseract vorzunehmen. Unter Ubuntu 10.04 ließen permanente Abstürze von OCRGui ebenfalls keine rechte Freude aufkommen, so dass der Kandidat an dieser Stelle wieder aus dem Test ausschied.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 01/2015: E-Books im Griff

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...
Steuern mit Linux
Siegfried Markner, 01.12.2014 11:56, 2 Antworten
Welches Linux eignet sich am besten für Steuerungen.
Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 5 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...