Trainingsziel Text
Texterkennung
Mannschaftssport: GOCR und Kooka
Soll GOCR mit Kooka ein Team bilden, braucht das OCR-Tool eine kleine Hilfestellung in Form eines selbstgeschriebenen Skripts. So sorgen Sie für eine gute Zusammenarbeit:
Öffnen Sie einen Texteditor Ihrer Wahl (z. B. kate oder gedit) und erstellen Sie eine neue Datei namens gocr.sh. In diese tragen Sie die folgenden beiden Zeilen ein:
#!/bin/bash /usr/bin/gocr -m 2 -p /home/<IhrBenutzername>/db/ $@
Speichern Sie die Datei und schließen Sie den Editor.
- Machen Sie das neue Skript ausführbar. Im Dateimanager (Dolphin oder Nautilus) klicken Sie dazu mit der rechten Maustaste auf die Datei gocr.sh und öffnen den Dialog Eigenschaften. Wechseln Sie zum Reiter Zugriffsrechte bzw. Berechtigungen und setzen Sie ein Häkchen bei Datei als Programm ausführen bzw. Ausführbar.
- Öffnen Sie im KDE-Scanprogramm über den Menüpunkt Einstellungen / Kooka einrichten den Konfigurationsdialog. Klicken Sie links auf das Symbol OCR.
In der rechten Fensterhälfte aktivieren Sie die Checkbox GOCR-Modul. Im Feld GOCR OCR ist als Voreinstellung für die ausführbare GOCR-Datei /usr/bin/gocr eingetragen. Da es hier keine Möglichkeit gibt, weitere Aufrufoptionen hinter den Befehl zu schreiben und Sie daher GOCR auf diese Weise nicht auffordern können, die persönliche Datenbank zu wählen, tragen Sie nun den Pfad zu Ihrem gerade geschriebenen Skript ein und bestätigen mit OK (Abbildung 7).
- Danach starten Sie Kooka neu. Wählen Sie ein Bild aus der Kooka-Galerie aus oder scannen Sie ein Dokument neu ein. Danach klicken Sie entweder auf das Icon neben dem Druckersymbol, um die gesamte Bilddatei umzuwandeln, oder auf das Symbol daneben, um Teile des Textes zu wählen.
- Im folgenden Dialogfenster können Sie einige Feinabstimmungen für die Graustufen, Staubgröße und den Zeichenabstand vornehmen. Der Reiter Bild zeigt zur Bestätigung noch einmal die ausgesuchte Grafik, und auf dem letzten Reiter bietet Kooka verschiedene Rechtschreibprogramme zur Nachkontrolle an. (Leider funktionierte dieses Feature auf unseren Testsystemen nicht.) Mit einem Klick auf Zeichenerkennung (OCR) starten stoßen Sie die Texterkennung an.
Fazit
Richtig unproblematisch ist die Zusammenarbeit mit GOCR nicht – weder auf der Shell noch in den grafischen Scanprogrammen. Dennoch ist das freie OCR-Tool auf dem richtigen Weg, und mit ein bisschen Ausdauertraining erzielt es nach kurzer Zeit schon recht passable Ergebnisse.
Glossar
Serifen
Serifen, auch "Füßchen" genannt, sind die kleinen End-, An- oder Abstriche der Buchstaben. Diese Betonung der Mittel- und Grundlinien verbessert die Lesbarkeit.
[1] Liste unterstützter Scanner: http://www.sane-project.org/sane-supported-devices.html
[2] Artikel zur Scannereinrichtung unter Linux: Martin Loschwitz, "Linux scannt", EasyLinux 10/2004, S. 17 ff., http://www.easylinux.de/2004/10/017-scanner/
[3] Kooka-Homepage: http://kooka.kde.org/
[4] Scannereinrichtung unter Ubuntu: http://wiki.ubuntuusers.de/Scanner
[5] Artikel zu Scanprogrammen: Martin Loschwitz, "Gut erkannt, Dr Watson!", EasyLinux 10/2004, S. 20 ff., http://www.easylinux.de/2004/10/020-stools/
[6] Bildbearbeitung auf der Shell: Heike Jurzik, "Zauberhafte Bildbearbeitung", EasyLinux 06/2006, S. 89 ff., http://www.easylinux.de/2006/06/089-guru-convert/



