Sprachprobleme

Tesseract-gui zeigte zunächst ebenfalls unbefriedigende Ergebnisse. Das Optionsfeld Language im linken unteren Bereich des Einstellungsfensters war trotz korrekt installierter Sprachmodule von Tesseract ausgegraut. Nach eingehender Inspektion des Sachverhalts offenbarte sich ein Fehler im Installationsskript, das die Sprachmodule an einem falschen Ort erwartet: Während das Kommandozeilenprogramm Tesseract seine linguistischen Dateien im Unterverzeichnis /usr/share/tessdata ablegt, erwartet Tesseract-gui die Module im Unterverzeichnis /usr/share/tesseract-ocr/tessdata.

Ohne einen entsprechenden Softlink oder das Kopieren der Sprachdateien in das meist eigens anzulegende Unterverzeichnis /usr/share/tesseract-ocr ist die grafische Oberfläche auf die englische Sprache eingestellt und erbringt daher in allen anderen Idiomen unbrauchbare Ergebnisse. Nach dem Anpassen der Pfade und einem Neuaufruf des Programms ließ sich problemlos die benötigte Sprache einstellen.

Durchwachsenes

Bei mehreren Testläufen überzeugte Tesseract-gui teilweise: Die Software schaffte es nicht, die Bildvorlagen in Frakturschrift unabhängig vom verwendeten Bildformat und trotz eingehendem Bearbeiten sowohl durch Gimp als auch durch die eigenen, in Tesseract-gui integrierten Werkzeuge, den Text in ein brauchbares Ergebnis umzusetzen.

Völlig anders stellte sich die Situation mit einer unscharf vergrößerten Bildvorlage in englischer Sprache dar: Hier erbrachte das Programm herausragende Ergebnisse bei sehr gutem Datendurchsatz trotz fehlender Nachbearbeitung. Eine ebenfalls unbearbeitete deutschsprachige Textseite setzte es mit einer Erkennungsquote von annähernd hundert Prozent gleich im ersten Durchlauf um (Abbildung 3 und Abbildung 4).

Abbildung 3: Eine nur durchschnittliche Vorlage…
Abbildung 4: …erbringt durchaus gute Ergebnisse.

Im Falle dieser Seite zeigte sich zudem, dass ein nachträgliches Bearbeiten der Bilddatei in manchen Fällen negative Folgen hat: In einem zweiten Durchlauf nach erheblichem Schärfen des Bildes und verstärktem Kontrast häuften sich Erkennungsfehler. Weniger positiv fielen dagegen Vorlagen auf, deren Text sich auf zwei oder mehrere Spalten verteilt. Hier ist es unbedingt nötig, mithilfe der Crop-Funktion die Spalten einzeln einzulesen. Dann erbringt Tesseract-gui gute Ergebnisse.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 09/2015: Paketverwaltung

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 2 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Scanner EPSON Perfection V 300 photo und VueScan
Roland Welcker, 19.08.2015 09:04, 1 Antworten
Verehrte Linux-Freunde, ich habe VueScan in /usr/local/src/vuex_3295/VueScan installiert, dazu d...
Empfehlung gesucht Welche Dist als Wirt für VM ?
Roland Fischer, 31.07.2015 20:53, 2 Antworten
Wer kann mir Empfehlungen geben welche Distribution gut geeignet ist als Wirt für eine VM für Win...
Plugins bei OPERA - Linux Mint 17.1
Christoph-J. Walter, 23.07.2015 08:32, 3 Antworten
Beim Versuch Video-Sequenzen an zu schauen kommt die Meldung -Plug-ins und Shockwave abgestürzt-....
Wird Windows 10 update/upgrade mein Grub zerstören ?
daniel s, 22.07.2015 08:31, 9 Antworten
oder rührt Windows den Bootloader nicht an? das ist auch alles was Google mir nicht beantw...
Z FUER Y UND ANDERE EINGABEFEHLER AUF DER TASTATUR
heide marie voigt, 10.07.2015 13:53, 2 Antworten
BISHER konnte ich fehlerfrei schreiben ... nun ist einiges drucheinander geraten ... ich war bei...