Qual der Wahl

Einen eindeutigen Favoriten unter den OCR-Programmen gibt es nicht. Mit Cuneiform [3] und Tesseract [4] stehen aber zwei alltagstaugliche Programme bereit. Im Test kam ein kleiner Mustertext zum Einsatz (Abbildung 5), der von beiden Programmen die Stärken und Schwächen aufzeigt. Die eingescannte Datei lag im TIF-Format mit einer Auflösung von 600 DPI vor.

Abbildung 5: Ein Mustertext deckt die Stärken und Schwächen der Texterkennungsprogramme Cuneiform und Tesseract auf.

TIPP

Bei Scans von Zeitschriftenartikeln, Gebrauchsanleitungen und Buchseiten fällt das Ergebnis weniger unterschiedlich aus. Daher erweist es sich für ein Shellskript als gute Taktik, beide OCR-Programme einzusetzen.

Cuneiform

Im Test wurde das Programm auf einem Debian-System aus den Quellen installiert, was nach dem Auflösen einiger Abhängigkeiten klappte. Die Software erwartet Eingabedateien im TIF-Format. Der Aufruf des Programm folgt der folgende Syntax:

cuneiform -l Sprache -f text -o Ausgabedatei Bilddatei

Die Option -l Sprache ermöglicht die Texterkennung in der angegebenen Sprache. Die zur Zeit unterstützten Sprachen finden Sie in der Tabelle "Sprachen in Cuneiform".

Sprachen in Cuneiform

Sprache Kürzel
Bulgarisch bul
Dänisch dan
Deutsch ger
Englisch eng
Estländisch est
Französisch fra
Italienisch ita
Kroatisch hrv
Lettländisch lav
Litauisch lit
Niederländisch dut
Polnisch pol
Portugiesisch por
Rumänisch rum
Russisch rus
Schwedisch swe
Serbisch srp
Slowenisch slo
Spanisch spa
Tschechisch cze
Türkisch tur
Ukrainisch ukr
Ungarisch hun

Die Option -f bestimmt das Format der Ausgabe: text für reinen Text, smarttext für Text mit Zeilen und Absätzen entsprechend der Vorlage, rtf für eine Rich-Text-Format-Datei und html für eine HTML-Datei. Weitere Optionen fügen Sie bei Bedarf nach der Angabe der Ausgabedatei ein. Dazu gehört unter anderem --dotmatrix, was das Auswerten von Ausdrucken von Nadeldruckern verbessert, mit --singlecolumn fassen Sie mehrere Spalten zu einer zusammen und --fax verbessert das Auswerten von gefaxten Dokumenten.

In Abbildung 6 finden Sie einen Auswertungslauf mit anschließendem Ergebnis. Versuche mit Vorlagen, welche weniger als 200 DPI aufwiesen, brachten keine brauchbaren Ergebnisse. Ab 300 DPI funktioniert das Auswerten. Kommen in der Vorlage verschiedene Schriftgrößen und sehr kleine Schriftarten vor, brauchen Sie beim Scannen eine Auflösung von 600 DPI.

Abbildung 6: Nach dem Auswerten einer Seite mit Cuneiform zeigt das Ergebnis.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Eingescannte Texte automatisch erkennen
    Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
Kommentare

Infos zur Publikation

title_2015_02

Digitale Ausgabe: Preis € 5,49
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 2 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Rootpasswort
Jutta Naumann, 29.01.2015 09:14, 0 Antworten
Ich habe OpenSuse 13.2 installiert und leider nur das Systempasswort eingerichtet. Um Änderungen,...
Neue SuSE-Literatur
Roland Welcker, 14.01.2015 14:10, 1 Antworten
Verehrte Linux-Freunde, seit Hans-Georg Essers Buch "LINUX" und Stefanie Teufels "Jetzt lerne ich...
DVD abspielen unter openSUSE 13.1
Michael Pfaffe, 12.01.2015 11:48, 6 Antworten
Hallo Linuxer, Bisher habe ich meine DVD´s mit linDVD unter openSUSE abgespielt. Mit der Versi...
Kontrollleiste SuSE 12.3 gestalten
Roland Welcker, 31.12.2014 14:06, 1 Antworten
Wie bekomme ich das Icon eines beliebigen Programms (aktuell DUDEN) in die Kontrollleiste und kan...
flash-player
roland reiner, 27.12.2014 15:24, 7 Antworten
Mein Flashplayer funktioniert nicht mehr-Plug in wird nicht mehr unterstütz,auch über google chro...