Home / EasyLinux / 2009 / 02 / Trainingsziel Text

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

War doch klar...
(243 Punkte bei 15 Stimmen)
Re: War doch klar...
(179 Punkte bei 5 Stimmen)
Re: Skype für 64-Bit-Prozessor u. Suse 12.1
(161 Punkte bei 4 Stimmen)
Kubuntu verliert Finanzierung
(130 Punkte bei 4 Stimmen)
Offen fürs Geschäft
(80 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.
PO-19001-SXC-Brille.jpg

© sxc.hu, Sanja Gjenero

Trainingsziel Text

Texterkennung

20.03.2009 Gute Texterkennungsprogramme sind teuer und lohnen sich daher für Privatanwender kaum. Für Linux gibt es zwar einige freie und kostenlose Tools, die aber meist wenig Zeitersparnis bringen, da die Texte aufwändige manuelle Nachbearbeitung erfordern. GOCR ist besser: Mit etwas Training steigern Sie die Trefferquote.

GOCR ist eigentlich ein Kommandozeilenprogramm, arbeitet aber problemlos mit grafischen Anwendungen wie XSane und Kooka zusammen. Und nicht nur das: Das OCR-Tool kann im Gegensatz zu vielen anderen Programmen mit Umlauten umgehen und ist darüber hinaus auch noch lernfähig.

OCR steht für Optical Character Recognition; das Ziel der optischen Zeichenerkennung ist es, eingescannte Texte in Textdateien umzuwandeln. OCR-Programme rastern die Schriftzeichen und vergleichen sie mit bekannten Mustern aus ihrer Datenbank. Wenn es ausreichend viele Übereinstimmungen gibt, gilt ein Zeichen als "erkannt".

Dieser Artikel zeigt, wie Sie GOCR auf der Kommandozeile trainieren und damit für die Arbeit in XSane und Kooka fit machen.

Das richtige Sportgerät

Als Erstes geht es daran, den Scanner einzurichten. Die SANE-Hardwaredatenbank [1] verrät, welche Geräte mit Linux zusammenarbeiten. Ist der Status hier "complete" oder mindestens "good", sollte es keine Probleme bei der Einrichtung geben. Ein älterer EasyLinux-Artikel [2] erklärt die Grundlagen.

Unter OpenSuse 11.0 und 11.1 starten Sie YaST, geben das Root-Passwort ein und klicken im Bereich Hardware auf Scanner. Der Paketmanager spielt selbstständig das Paket sane-backends ein und erstellt die Scannerdatenbank. Im Anschluss folgt eine automatische Hardwareerkennung, und ein Dialogfenster präsentiert die gefundenen Geräte (Abbildung 1). Weiterhin spielen Sie über YaSTs Softwaremodul die Pakete xsane, kdegraphics3-scan und gocr ein.

Abbildung 1: Unter OpenSuse richten Sie Ihren Scanner über YaST ein.

Anwender von Ubuntu 8.10 installieren über den Paketmanager sane, sane-utils, xsane und gocr. Leider steht für Intrepid Ibex das Programm Kooka nicht zur Verfügung: Die Anwendung hat den Sprung von KDE 3 auf 4 nicht vollzogen, und die Projekt-Homepage lässt die zukünftige Entwicklung ebenfalls offen [3]. Ein kdegraphics-Paket der 3er-Reihe (wie bei OpenSuse) gibt es für diese Distribution leider auch nicht als Ausweichmöglichkeit. Die Integration von GOCR in XSane funktioniert aber problemlos. Auch bei Ubuntu gibt es eine automatische Hardwareerkennung; ein Artikel aus dem Ubuntuusers-Wiki [4] verrät die Hintergründe.

Aufwärmen nicht vergessen!

Wie gut GOCR Text erkennt, hängt vor allem von der Scanvorlage ab: Das Dokument sollte nicht schief auf dem Scanner liegen und auch nicht voller Flecken und Knicke sein. Auch ein verstaubter Scanner kann durchaus für kreative Interpretationen des OCR-Programms sorgen. Tabellen und Grafiken bringen die meisten Tools ins Schleudern, und auch bei handgeschriebenen Texten sieht es nicht besser aus.

Die Schriftart entscheidet mit darüber, wie gut GOCR arbeitet: Bei Fonts mit Serifen, z. B. Times, Courier oder Palatino, gehen die einzelnen Zeichen manchmal nahtlos ineinander über. Deutlich zu sehen ist das bei zwei aufeinanderfolgenden Konsonanten wie "mm" oder auch "fl" (Abbildung 2). Solche fließenden Übergänge stellen OCR-Programme vor ein Problem, weil sie nicht erkennen können, ob es sich um ein oder zwei Zeichen handelt. Eine serifenlose Schrift, wie beispielsweise Arial, Helvetica oder Verdana, und eine Schriftgröße von mindestens 12 Punkt sorgen für bessere Ergebnisse bei der Texterkennung.

Abbildung 2: Bei Serifenschriften fließen Buchstaben ineinander; das macht es GOCR unnötig schwer.

Für die Texterkennung justieren Sie die Auflösung des Scanners am besten auf 150 oder 300 dpi und wählen den Schwarz-Weiß- oder Graustufenmodus. Wie das in XSane und Kooka funktioniert, erklärt der Artikel unter [5]. Kontrollieren Sie anschließend in einem Bildbetrachter die gescannten Texte; mit einem Programm wie Gimp oder ImageMagick passen Sie im Zweifelsfall die Helligkeit und den Kontrast an (Abbildung 3). GOCR kann PNM-, PGM-, PPM- und PCX-Dateien verarbeiten; liegt ein gescannter Text in einem anderen Grafikformat vor, wandelt Gimp oder convert[6] die Dateien um.

Abbildung 3: Wenn Sie die Helligkeit und den Kontrast nachträglich verändern möchten, helfen Bildbearbeitungsprogramme wie Gimp.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

2361 Hits
Wertung: 0 Punkte (1 Stimme)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

title_2012_01

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

EasyLinux erscheint vierteljährlich und kostet EUR 9,80. Weitere Informationen zum Heft finden Sie auf der EasyLinux-Homepage.

Das EasyLinux-Jahresabo kostet EUR 33,30. Details zum EasyLinux-Jahresabo finden Sie im LNM-Shop.

Tipp der Woche

Duden Korrektor unter 64-Bit
Duden Korrektor unter 64-Bit
Tim Schürmann, 06.02.2012 10:36, 0 Kommentare

Der Duden Korrektor bietet eine äußerst nützliche Rechtschreib- und Grammatikkorrektur für LibreOffice und bringt in der aktuellen Version 8 e...

Aktuelle Fragen

N24 Stick (Huawei E173) und Ubuntu 11.04
Patrick Obenauer, 11.02.2012 11:54, 1 Antworten
Hallo zusammen! Ich benutze einen alten Laptop, der mit Ubuntu 11.04 flott und problemlos läuft....
Wie kann man beim Einsatz von Compiz die Fenster-Dekoration einstellen?
GoaSkin , 10.02.2012 20:12, 0 Antworten
Hallo, ich nutze Linux Mint mit dem Gnome-Derivat Mate. Da die Distribution Compiz nicht autom...
rndc reload zone - failed bad zone
Ludwig jun. B., 06.02.2012 16:08, 2 Antworten
Schönen guten Tag, ich habe folgendes Problem. Immer wenn ich folgendes Kommando ausführen bek...
Skype für 64-Bit-Prozessor u. Suse 12.1
Klaus Sigerist, 05.02.2012 11:39, 3 Antworten
Hallo Gemeinde! Ich bin nur ein einfacher Nutzer und habe Probleme mit der Installation von Skyp...
8! Anfängerfrage :) Wie finde ich in Ubuntu die Datenträger (Bild, Text)
samuel leusam, 04.02.2012 15:53, 2 Antworten
Ich habe neu Ubuntu. Wenn ich die SD Karte im Laptop einstecke, erkennt er sie und gibt ihr den N...