PO-19001-SXC-Brille.jpg

© sxc.hu, Sanja Gjenero

Trainingsziel Text

Texterkennung

20.03.2009
Gute Texterkennungsprogramme sind teuer und lohnen sich daher für Privatanwender kaum. Für Linux gibt es zwar einige freie und kostenlose Tools, die aber meist wenig Zeitersparnis bringen, da die Texte aufwändige manuelle Nachbearbeitung erfordern. GOCR ist besser: Mit etwas Training steigern Sie die Trefferquote.

GOCR ist eigentlich ein Kommandozeilenprogramm, arbeitet aber problemlos mit grafischen Anwendungen wie XSane und Kooka zusammen. Und nicht nur das: Das OCR-Tool kann im Gegensatz zu vielen anderen Programmen mit Umlauten umgehen und ist darüber hinaus auch noch lernfähig.

OCR steht für Optical Character Recognition; das Ziel der optischen Zeichenerkennung ist es, eingescannte Texte in Textdateien umzuwandeln. OCR-Programme rastern die Schriftzeichen und vergleichen sie mit bekannten Mustern aus ihrer Datenbank. Wenn es ausreichend viele Übereinstimmungen gibt, gilt ein Zeichen als "erkannt".

Dieser Artikel zeigt, wie Sie GOCR auf der Kommandozeile trainieren und damit für die Arbeit in XSane und Kooka fit machen.

Das richtige Sportgerät

Als Erstes geht es daran, den Scanner einzurichten. Die SANE-Hardwaredatenbank [1] verrät, welche Geräte mit Linux zusammenarbeiten. Ist der Status hier "complete" oder mindestens "good", sollte es keine Probleme bei der Einrichtung geben. Ein älterer EasyLinux-Artikel [2] erklärt die Grundlagen.

Unter OpenSuse 11.0 und 11.1 starten Sie YaST, geben das Root-Passwort ein und klicken im Bereich Hardware auf Scanner. Der Paketmanager spielt selbstständig das Paket sane-backends ein und erstellt die Scannerdatenbank. Im Anschluss folgt eine automatische Hardwareerkennung, und ein Dialogfenster präsentiert die gefundenen Geräte (Abbildung 1). Weiterhin spielen Sie über YaSTs Softwaremodul die Pakete xsane, kdegraphics3-scan und gocr ein.

Abbildung 1: Unter OpenSuse richten Sie Ihren Scanner über YaST ein.

Anwender von Ubuntu 8.10 installieren über den Paketmanager sane, sane-utils, xsane und gocr. Leider steht für Intrepid Ibex das Programm Kooka nicht zur Verfügung: Die Anwendung hat den Sprung von KDE 3 auf 4 nicht vollzogen, und die Projekt-Homepage lässt die zukünftige Entwicklung ebenfalls offen [3]. Ein kdegraphics-Paket der 3er-Reihe (wie bei OpenSuse) gibt es für diese Distribution leider auch nicht als Ausweichmöglichkeit. Die Integration von GOCR in XSane funktioniert aber problemlos. Auch bei Ubuntu gibt es eine automatische Hardwareerkennung; ein Artikel aus dem Ubuntuusers-Wiki [4] verrät die Hintergründe.

Aufwärmen nicht vergessen!

Wie gut GOCR Text erkennt, hängt vor allem von der Scanvorlage ab: Das Dokument sollte nicht schief auf dem Scanner liegen und auch nicht voller Flecken und Knicke sein. Auch ein verstaubter Scanner kann durchaus für kreative Interpretationen des OCR-Programms sorgen. Tabellen und Grafiken bringen die meisten Tools ins Schleudern, und auch bei handgeschriebenen Texten sieht es nicht besser aus.

Die Schriftart entscheidet mit darüber, wie gut GOCR arbeitet: Bei Fonts mit Serifen, z. B. Times, Courier oder Palatino, gehen die einzelnen Zeichen manchmal nahtlos ineinander über. Deutlich zu sehen ist das bei zwei aufeinanderfolgenden Konsonanten wie "mm" oder auch "fl" (Abbildung 2). Solche fließenden Übergänge stellen OCR-Programme vor ein Problem, weil sie nicht erkennen können, ob es sich um ein oder zwei Zeichen handelt. Eine serifenlose Schrift, wie beispielsweise Arial, Helvetica oder Verdana, und eine Schriftgröße von mindestens 12 Punkt sorgen für bessere Ergebnisse bei der Texterkennung.

Abbildung 2: Bei Serifenschriften fließen Buchstaben ineinander; das macht es GOCR unnötig schwer.

Für die Texterkennung justieren Sie die Auflösung des Scanners am besten auf 150 oder 300 dpi und wählen den Schwarz-Weiß- oder Graustufenmodus. Wie das in XSane und Kooka funktioniert, erklärt der Artikel unter [5]. Kontrollieren Sie anschließend in einem Bildbetrachter die gescannten Texte; mit einem Programm wie Gimp oder ImageMagick passen Sie im Zweifelsfall die Helligkeit und den Kontrast an (Abbildung 3). GOCR kann PNM-, PGM-, PPM- und PCX-Dateien verarbeiten; liegt ein gescannter Text in einem anderen Grafikformat vor, wandelt Gimp oder convert[6] die Dateien um.

Abbildung 3: Wenn Sie die Helligkeit und den Kontrast nachträglich verändern möchten, helfen Bildbearbeitungsprogramme wie Gimp.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Digitale Lektüre
    Mit Gocr hält auch unter Linux die automatische Texterkennung Einzug und erspart damit dem Nutzer eine Menge Tipparbeit.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Abgelichtet und weggepackt
    Viele Scanner-Tools verwirren mit zahlreichen Funktionen, die Sie in den meisten Fällen nicht benötigen. Der übersichtliche Scan-Helfer Gscan2pdf verwandelt dagegen einfach und komfortabel alte Papierdokumente in platzsparende PDF-Dateien.
  • Scannen mit XSane
    Oh nein, da kommt Ihr analoger Freund mit den unscharfen, aber unzensierten Party-Fotos. Keine Panik – das Scan-Programm XSane hilft beim Bergen der zweifelhaften Schätze.
  • Scannen und OCR mit Gscan2pdf
    Vom gedruckten Wort bis zum digitalen Dokument in nur wenigen Schritten: Das Programm Gscan2pdf macht's möglich, weil es mehrere Tools unter einem Dach vereint.
Kommentare

Infos zur Publikation

title_2014_03

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet EUR 9,80. Weitere Informationen zum Heft finden Sie auf der EasyLinux-Homepage.

Das EasyLinux-Jahresabo mit Prämie kostet ab EUR 33,30. Details zum EasyLinux-Jahresabo finden Sie im Medialinx-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...
o2 surfstick software für ubuntu?
daniel soltek, 15.07.2014 18:27, 1 Antworten
hallo zusammen, habe mir einen o2 surfstick huawei bestellt und gerade festgestellt, das der nic...