AA_lettuce_talk2frank_sxc_1150594.jpg

© talk2frank, sxc.hu

Buchstabensalat

Texterkennung mit Tesseract

08.04.2011
Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.

Das entwickeln einer Zeichenerkennungssoftware gehört zu den schwierigsten Aufgaben beim Programmieren von Applikation. Obwohl solche Tools im Büroalltag vor allem beim professionellen Dokumentenmanagement schon aufgrund gesetzlicher Vorschriften nahezu unentbehrlich sind, gibt es nur wenige ausgereifte Applikationen in dieser Disziplin. Unter Linux herrschte beim Thema OCR-Software lange Zeit eisiges Schweigen. Mittlerweile schicken sich verschiedene Projekte mit unterschiedlichen Schwerpunkten und innovativen Technologien an, um zu den gängigen Industriestandards aufzuschließen. Zu den ältesten OCR-Programmen, dessen Anfänge bis in das Jahr 1985 zurückreichen, gehört Tesseract [1]. Die ursprünglich vom US-Computerriesen Hewlett-Packard entwickelte Software steht nach einer wechselvollen Geschichte nunmehr unter der Obhut von Google und dient unter anderem als Grundlage für den Dienst Google Books.

Installation mit Hürden

Da sich die Software bereits bei praktisch allen gängigen Linux-Distributionen in den Repositories befindet, ist eine schnelle Installation über die grafische Oberfläche mithilfe von Synaptics, dem Kontrollzentrum von Mandriva oder YaST möglich. Durch den modularen Aufbau des Programms benötigen Sie jedoch – sofern Sie andere als englischsprachige Texte bearbeiten wollen – mindestens ein entsprechendes zusätzliches Sprachmodul.

Tesseract bietet solche Module für alle Weltsprachen an. Als besonderes Alleinstellungsmerkmal liegt außerdem ein Sprachmodul für deutsche Frakturschriften vor, welches zu den Kandidaten in diesem Test gehört. Allerdings handhaben die Linux-Distributionen die Installation der Sprachmodule etwas unterschiedlich: Während Mandriva 2010.1 sofort eine Liste mit den vorhandenen Idiomen zur Auswahl anbot, lief bei einem frisch aufgesetzten Ubuntu 10.04 die Installation ohne einen entsprechenden Hinweis durch. In der Folge kam es zu katastrophalen Testergebnissen beim ersten Arbeiten.

Dieser Mangel in Ubuntus Installationsroutine führt zu einer ebenfalls mangelhaften Modulauswahl bei Tesseract. Ubuntu-Nutzer sollten daher gleich nach dem frischen Aufsetzen des Betriebssystems die Lokalisierung vervollständigen, um anschließend Software entsprechend den regionalen Bedingungen optimal zu installieren. Haben Sie die entsprechenden Module auf die Platte gehoben, ist Tesseract einsatzbereit für die Arbeit mit deutschen Texten.

Kapriziöse GUI

Die Entwickler haben Tesseract auf das Einlesen und Erkennen von großen Textmengen hin optimiert – ähnlich wie Cuneiform. Da die Software verfügt über keine grafische Benutzeroberfläche und erlaubt zudem den unbeaufsichtigen Einsatz im Batch-Betrieb. Wie beim Konkurrenten Cuneiform gibt es jedoch für Anwender, die nicht automatisiert ganze Bibliotheken digitalisieren möchten, mehrere grafische Aufsätze zu Tesseract.

Als erster Kandidat kommt im Test die noch sehr junge Oberfläche OCRGui zum Einsatz, die im Netz [2] oder auf der Heft-DVD als RPM-Paket oder Tar.gz-Archiv erhältlich ist und eine ähnliche Oberfläche bietet, wie Yagf für Cuneiform. Die Installation unter Mandriva 2010.1 verlief ohne Probleme, beim Aufruf des Programms führte jedoch das Anklicken des Einstellungsdialogs wiederholt zum sofortigen Absturz der Software, so dass es nicht möglich war, die nötigen Angaben zu Pfaden, Schriften und der OCR-Engine Tesseract vorzunehmen. Unter Ubuntu 10.04 ließen permanente Abstürze von OCRGui ebenfalls keine rechte Freude aufkommen, so dass der Kandidat an dieser Stelle wieder aus dem Test ausschied.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 02/2016: Alt-PCs flott machen

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Der Tipp der Woche

Schon gewußt?

14.11.2015

Auch unter Ubuntu 15.10 kann man wieder mit dem Startmedienersteller (alias Startup Disk Creator) ein Live-System auf einem USB-Stick einrichten. ...

Fehler des Startmedienerstellers von Ubuntu 15.10 umgehen

Aktuelle Fragen

Leap 42.1 und LibreOffice
Heinz Kolbe, 09.02.2016 21:54, 0 Antworten
Moin moin, auf meinem Notebook habe ich Leap 42.1 und Win 10 installiert. Alles läuft rund nur...
Tails Update
Val Lerie, 11.01.2016 10:51, 0 Antworten
Hallo zusammen, updaten > update Speichern unter > Persistent nicht möglich, mit der Meldung;...
Recoll
Jürgen Heck, 20.12.2015 18:13, 4 Antworten
Wie kann man mit Recoll nach bestimmten Zeichen/Satzzeichen bzw. Zeichenkombinationen suchen, z....
Wings Platinum 4 auf Linux?
Bodo Steguweit, 18.12.2015 11:37, 4 Antworten
Hallo in die Runde ich nutze für meine Diashows Wings Platinum 4 als Diareferent. Arbeite jetzt...
Bandbreite regulieren
Georg Armani, 25.11.2015 16:50, 1 Antworten
Hallo, ich bin ein Neuling in Sachen Linux und hoffe auf Hilfe. Ich habe zwei Windows Rechner...