Home / EasyLinux / 2009 / 02 / Trainingsziel Text

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(179 Punkte bei 5 Stimmen)
Mandriva in Nöten
(161 Punkte bei 4 Stimmen)
Mageia 2 ist fertig
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.
PO-19001-SXC-Brille.jpg

© sxc.hu, Sanja Gjenero

Trainingsziel Text

Texterkennung

20.03.2009 Gute Texterkennungsprogramme sind teuer und lohnen sich daher für Privatanwender kaum. Für Linux gibt es zwar einige freie und kostenlose Tools, die aber meist wenig Zeitersparnis bringen, da die Texte aufwändige manuelle Nachbearbeitung erfordern. GOCR ist besser: Mit etwas Training steigern Sie die Trefferquote.

GOCR ist eigentlich ein Kommandozeilenprogramm, arbeitet aber problemlos mit grafischen Anwendungen wie XSane und Kooka zusammen. Und nicht nur das: Das OCR-Tool kann im Gegensatz zu vielen anderen Programmen mit Umlauten umgehen und ist darüber hinaus auch noch lernfähig.

OCR steht für Optical Character Recognition; das Ziel der optischen Zeichenerkennung ist es, eingescannte Texte in Textdateien umzuwandeln. OCR-Programme rastern die Schriftzeichen und vergleichen sie mit bekannten Mustern aus ihrer Datenbank. Wenn es ausreichend viele Übereinstimmungen gibt, gilt ein Zeichen als "erkannt".

Dieser Artikel zeigt, wie Sie GOCR auf der Kommandozeile trainieren und damit für die Arbeit in XSane und Kooka fit machen.

Das richtige Sportgerät

Als Erstes geht es daran, den Scanner einzurichten. Die SANE-Hardwaredatenbank [1] verrät, welche Geräte mit Linux zusammenarbeiten. Ist der Status hier "complete" oder mindestens "good", sollte es keine Probleme bei der Einrichtung geben. Ein älterer EasyLinux-Artikel [2] erklärt die Grundlagen.

Unter OpenSuse 11.0 und 11.1 starten Sie YaST, geben das Root-Passwort ein und klicken im Bereich Hardware auf Scanner. Der Paketmanager spielt selbstständig das Paket sane-backends ein und erstellt die Scannerdatenbank. Im Anschluss folgt eine automatische Hardwareerkennung, und ein Dialogfenster präsentiert die gefundenen Geräte (Abbildung 1). Weiterhin spielen Sie über YaSTs Softwaremodul die Pakete xsane, kdegraphics3-scan und gocr ein.

Abbildung 1: Unter OpenSuse richten Sie Ihren Scanner über YaST ein.

Anwender von Ubuntu 8.10 installieren über den Paketmanager sane, sane-utils, xsane und gocr. Leider steht für Intrepid Ibex das Programm Kooka nicht zur Verfügung: Die Anwendung hat den Sprung von KDE 3 auf 4 nicht vollzogen, und die Projekt-Homepage lässt die zukünftige Entwicklung ebenfalls offen [3]. Ein kdegraphics-Paket der 3er-Reihe (wie bei OpenSuse) gibt es für diese Distribution leider auch nicht als Ausweichmöglichkeit. Die Integration von GOCR in XSane funktioniert aber problemlos. Auch bei Ubuntu gibt es eine automatische Hardwareerkennung; ein Artikel aus dem Ubuntuusers-Wiki [4] verrät die Hintergründe.

Aufwärmen nicht vergessen!

Wie gut GOCR Text erkennt, hängt vor allem von der Scanvorlage ab: Das Dokument sollte nicht schief auf dem Scanner liegen und auch nicht voller Flecken und Knicke sein. Auch ein verstaubter Scanner kann durchaus für kreative Interpretationen des OCR-Programms sorgen. Tabellen und Grafiken bringen die meisten Tools ins Schleudern, und auch bei handgeschriebenen Texten sieht es nicht besser aus.

Die Schriftart entscheidet mit darüber, wie gut GOCR arbeitet: Bei Fonts mit Serifen, z. B. Times, Courier oder Palatino, gehen die einzelnen Zeichen manchmal nahtlos ineinander über. Deutlich zu sehen ist das bei zwei aufeinanderfolgenden Konsonanten wie "mm" oder auch "fl" (Abbildung 2). Solche fließenden Übergänge stellen OCR-Programme vor ein Problem, weil sie nicht erkennen können, ob es sich um ein oder zwei Zeichen handelt. Eine serifenlose Schrift, wie beispielsweise Arial, Helvetica oder Verdana, und eine Schriftgröße von mindestens 12 Punkt sorgen für bessere Ergebnisse bei der Texterkennung.

Abbildung 2: Bei Serifenschriften fließen Buchstaben ineinander; das macht es GOCR unnötig schwer.

Für die Texterkennung justieren Sie die Auflösung des Scanners am besten auf 150 oder 300 dpi und wählen den Schwarz-Weiß- oder Graustufenmodus. Wie das in XSane und Kooka funktioniert, erklärt der Artikel unter [5]. Kontrollieren Sie anschließend in einem Bildbetrachter die gescannten Texte; mit einem Programm wie Gimp oder ImageMagick passen Sie im Zweifelsfall die Helligkeit und den Kontrast an (Abbildung 3). GOCR kann PNM-, PGM-, PPM- und PCX-Dateien verarbeiten; liegt ein gescannter Text in einem anderen Grafikformat vor, wandelt Gimp oder convert[6] die Dateien um.

Abbildung 3: Wenn Sie die Helligkeit und den Kontrast nachträglich verändern möchten, helfen Bildbearbeitungsprogramme wie Gimp.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

2480 Hits
Wertung: 0 Punkte (1 Stimme)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

title_2012_02

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

EasyLinux erscheint vierteljährlich und kostet EUR 9,80. Weitere Informationen zum Heft finden Sie auf der EasyLinux-Homepage.

Das EasyLinux-Jahresabo kostet EUR 33,30. Details zum EasyLinux-Jahresabo finden Sie im LNM-Shop.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...