Tesseract-gui

Der dritte Kandidat ist Tesseract-gui. Das kleine Programm erhalten Sie in verschiedenen Versionen als Tar-Archiv und als DEB-Paket im Web [7] oder von der Heft-DVD. RPM-Pakete ließen sich auch auf den gängigen Suchseiten im Internet nicht finden, so dass es notwendig war, für den Test das aktuellste DEB-Paket mithilfe des im Terminal eingegebenen Befehls alien -r tesseract-gui_2.7-2_all.deb in ein RPM-Paket zu konvertieren. Damit ließ sich Tesseract-gui ohne Murren unter Mandriva 2010.1 installieren, wobei die Routine einen entsprechenden Starter TesseractGUI im Gnome-Menü Anwendungen | Büroprogramme anlegt.

Der nachfolgende Start der Software verlief ebenso rasant wie problemlos. Tesseract-gui bietet eine ungewöhnliche Oberfläche: Sowohl die von den meisten Anwendungen her bekannte Menüleiste als auch die Buttonleiste zum Schnellzugriff auf Funktionen per Schaltlfäche fehlen komplett. Stattdessen kommt die Software mit einem lediglich zweigeteilten Fenster. Während Sie im linken Bereich Einstellungen wie Pfadangaben und Dateinamen sowie Modifikationen zum Verbessern der Bildvorlagen vornehmen, ist der ungleich größere rechte Fensterbereich zunächst komplett leer.

Um das korrekte Bedienen des Programms sicherzustellen, deaktiviert die Software kontextsensitiv nicht vorhandene Funktionen. Zunächst gilt es, mithilfe eines Klicks auf die Schaltfläche Select image files eine Bilddatei zu öffnen. Die Software erweitert dabei die einlesbaren Dokumente um die Dateiformate JPEG und PNG. Das zur Texterkennung vorgesehene Bild positioniert das Programm zunächst links mittig in einem Listenfenster mit Pfadangabe. Ein Klick auf den Dateinamen liest die Bilddatei sodann ein. Nach dem Laden stehen im linken Fensterbereich alle Funktionen bereit.

Testfall Fraktur

Gleich im ersten Testdurchlauf sah sich Tesseract-gui mit einer schlecht eingescannten Buchseite mit Frakturschrift konfrontiert. Das Ergebnis, abgelegt in einer reinen Textdatei ohne Formatierungen, war erwartungsgemäß nicht zu gebrauchen. Tesseract-gui bietet jedoch im linken Fensterbereich mehrere Optionen, um ungeeignete Vorlagen aufzubessern, wobei Sie die Möglichkeit haben, das Ergebnis der Modifikationen gleich im rechten Fensterbereich zu überprüfen.

Es ist somit oft nicht mehr nötig, mithilfe einer externen Bildbearbeitung wie Gimp Vorlagen zu verbessern. Durch ein Setzen eines Häkchens bei Contrast entfernt die Software die bei Graustufenscans unvermeidlichen Schatten und Hintergründe aus der Bildvorlage. Ein Setzen des Häkchens vor der Option Denoise erhöht die Bildschärfe, wobei Sie diesen Parameter bei Bedarf durch einen Schieberegler individuell anpassen.

Enthält der Text Spalten und Rahmen, die die Trefferrate verschlechtern, wählen Sie mithilfe einer sogenannten Crop-Funktion explizit die Bereiche der Datei aus, die Sie mit Tesseract bearbeitet wollen. Dazu fahren Sie mit dem Mauszeiger über die Bilddatei. Der Zeiger verändert sich jetzt zu einem roten Quadrat. Sobald Sie die linke Maustaste gedrückt halten, können Sie ein Rechteck aufziehen, das einen rot-gestrichelten Rahmen hat (Abbildung 2). Nur jene Textteile, die sich innerhalb des Rahmens befinden, analysiert die Software nach einem Klick auf den Button Ausführen im unteren linken Segment des Fensters.

Abbildung 2: Spalten verlieren ihren Schrecken dank der Crop-Funktion.

Die Analyseergebnisse legt Tesseract-gui im vordefinierten Verzeichnis ab, wobei es einfache Textdateien generiert. Zur Information zeigt die Applikation Ein- und Ausgabedatei mitsamt dem vollständigen Pfad während des Bearbeitens ganz unten mittig im Programmfenster an.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Broadcom Adapter 802.11n nachinstallieren
Thomas Mengel, 31.10.2017 20:06, 2 Antworten
Hallo, kann man nachträglich auf einer Liveversion, MX Linux auf einem USB-Stick, nachträglich...
RUN fsck Manually / Stromausfall
Arno Krug, 29.10.2017 12:51, 1 Antworten
Hallo, nach Absturz des Rechners aufgrund fehlendem Stroms startet Linux nicht mehr wie gewohn...
source.list öffnet sich nicht
sebastian reimann, 27.10.2017 09:32, 2 Antworten
hallo Zusammen Ich habe das problem Das ich meine source.list nicht öffnen kann weiß vlt jemman...
Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 6 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...