Sprachprobleme

Tesseract-gui zeigte zunächst ebenfalls unbefriedigende Ergebnisse. Das Optionsfeld Language im linken unteren Bereich des Einstellungsfensters war trotz korrekt installierter Sprachmodule von Tesseract ausgegraut. Nach eingehender Inspektion des Sachverhalts offenbarte sich ein Fehler im Installationsskript, das die Sprachmodule an einem falschen Ort erwartet: Während das Kommandozeilenprogramm Tesseract seine linguistischen Dateien im Unterverzeichnis /usr/share/tessdata ablegt, erwartet Tesseract-gui die Module im Unterverzeichnis /usr/share/tesseract-ocr/tessdata.

Ohne einen entsprechenden Softlink oder das Kopieren der Sprachdateien in das meist eigens anzulegende Unterverzeichnis /usr/share/tesseract-ocr ist die grafische Oberfläche auf die englische Sprache eingestellt und erbringt daher in allen anderen Idiomen unbrauchbare Ergebnisse. Nach dem Anpassen der Pfade und einem Neuaufruf des Programms ließ sich problemlos die benötigte Sprache einstellen.

Durchwachsenes

Bei mehreren Testläufen überzeugte Tesseract-gui teilweise: Die Software schaffte es nicht, die Bildvorlagen in Frakturschrift unabhängig vom verwendeten Bildformat und trotz eingehendem Bearbeiten sowohl durch Gimp als auch durch die eigenen, in Tesseract-gui integrierten Werkzeuge, den Text in ein brauchbares Ergebnis umzusetzen.

Völlig anders stellte sich die Situation mit einer unscharf vergrößerten Bildvorlage in englischer Sprache dar: Hier erbrachte das Programm herausragende Ergebnisse bei sehr gutem Datendurchsatz trotz fehlender Nachbearbeitung. Eine ebenfalls unbearbeitete deutschsprachige Textseite setzte es mit einer Erkennungsquote von annähernd hundert Prozent gleich im ersten Durchlauf um (Abbildung 3 und Abbildung 4).

Abbildung 3: Eine nur durchschnittliche Vorlage…
Abbildung 4: …erbringt durchaus gute Ergebnisse.

Im Falle dieser Seite zeigte sich zudem, dass ein nachträgliches Bearbeiten der Bilddatei in manchen Fällen negative Folgen hat: In einem zweiten Durchlauf nach erheblichem Schärfen des Bildes und verstärktem Kontrast häuften sich Erkennungsfehler. Weniger positiv fielen dagegen Vorlagen auf, deren Text sich auf zwei oder mehrere Spalten verteilt. Hier ist es unbedingt nötig, mithilfe der Crop-Funktion die Spalten einzeln einzulesen. Dann erbringt Tesseract-gui gute Ergebnisse.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

title_2015_02

Digitale Ausgabe: Preis € 5,49
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 2 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Neue SuSE-Literatur
Roland Welcker, 14.01.2015 14:10, 1 Antworten
Verehrte Linux-Freunde, seit Hans-Georg Essers Buch "LINUX" und Stefanie Teufels "Jetzt lerne ich...
DVD abspielen unter openSUSE 13.1
Michael Pfaffe, 12.01.2015 11:48, 6 Antworten
Hallo Linuxer, Bisher habe ich meine DVD´s mit linDVD unter openSUSE abgespielt. Mit der Versi...
Kontrollleiste SuSE 12.3 gestalten
Roland Welcker, 31.12.2014 14:06, 1 Antworten
Wie bekomme ich das Icon eines beliebigen Programms (aktuell DUDEN) in die Kontrollleiste und kan...
flash-player
roland reiner, 27.12.2014 15:24, 7 Antworten
Mein Flashplayer funktioniert nicht mehr-Plug in wird nicht mehr unterstütz,auch über google chro...
PCLinuxOS Version 2014.08 "FullMonty" Umstellung auf deutsch
Karl-Heinz Welz, 19.12.2014 09:55, 10 Antworten
Hallo, liebe Community, ich bin 63 Jahre alt und möchte jetzt nach Jahrzehnten Windows zu Linux...