Qual der Wahl

Einen eindeutigen Favoriten unter den OCR-Programmen gibt es nicht. Mit Cuneiform [3] und Tesseract [4] stehen aber zwei alltagstaugliche Programme bereit. Im Test kam ein kleiner Mustertext zum Einsatz (Abbildung 5), der von beiden Programmen die Stärken und Schwächen aufzeigt. Die eingescannte Datei lag im TIF-Format mit einer Auflösung von 600 DPI vor.

Abbildung 5: Ein Mustertext deckt die Stärken und Schwächen der Texterkennungsprogramme Cuneiform und Tesseract auf.

TIPP

Bei Scans von Zeitschriftenartikeln, Gebrauchsanleitungen und Buchseiten fällt das Ergebnis weniger unterschiedlich aus. Daher erweist es sich für ein Shellskript als gute Taktik, beide OCR-Programme einzusetzen.

Cuneiform

Im Test wurde das Programm auf einem Debian-System aus den Quellen installiert, was nach dem Auflösen einiger Abhängigkeiten klappte. Die Software erwartet Eingabedateien im TIF-Format. Der Aufruf des Programm folgt der folgende Syntax:

cuneiform -l Sprache -f text -o Ausgabedatei Bilddatei

Die Option -l Sprache ermöglicht die Texterkennung in der angegebenen Sprache. Die zur Zeit unterstützten Sprachen finden Sie in der Tabelle "Sprachen in Cuneiform".

Sprachen in Cuneiform

Sprache Kürzel
Bulgarisch bul
Dänisch dan
Deutsch ger
Englisch eng
Estländisch est
Französisch fra
Italienisch ita
Kroatisch hrv
Lettländisch lav
Litauisch lit
Niederländisch dut
Polnisch pol
Portugiesisch por
Rumänisch rum
Russisch rus
Schwedisch swe
Serbisch srp
Slowenisch slo
Spanisch spa
Tschechisch cze
Türkisch tur
Ukrainisch ukr
Ungarisch hun

Die Option -f bestimmt das Format der Ausgabe: text für reinen Text, smarttext für Text mit Zeilen und Absätzen entsprechend der Vorlage, rtf für eine Rich-Text-Format-Datei und html für eine HTML-Datei. Weitere Optionen fügen Sie bei Bedarf nach der Angabe der Ausgabedatei ein. Dazu gehört unter anderem --dotmatrix, was das Auswerten von Ausdrucken von Nadeldruckern verbessert, mit --singlecolumn fassen Sie mehrere Spalten zu einer zusammen und --fax verbessert das Auswerten von gefaxten Dokumenten.

In Abbildung 6 finden Sie einen Auswertungslauf mit anschließendem Ergebnis. Versuche mit Vorlagen, welche weniger als 200 DPI aufwiesen, brachten keine brauchbaren Ergebnisse. Ab 300 DPI funktioniert das Auswerten. Kommen in der Vorlage verschiedene Schriftgrößen und sehr kleine Schriftarten vor, brauchen Sie beim Scannen eine Auflösung von 600 DPI.

Abbildung 6: Nach dem Auswerten einer Seite mit Cuneiform zeigt das Ergebnis.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Eingescannte Texte automatisch erkennen
    Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.
Kommentare

Infos zur Publikation

LU 12/2016: Neue Desktops

Digitale Ausgabe: Preis € 5,99
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

Drucker Epson XP-332 unter ubuntu 14.04 einrichten
Andrea Wagenblast, 30.11.2016 22:07, 2 Antworten
Hallo, habe vergeblich versucht mein Multifunktionsgerät Epson XP-332 als neuen Drucker unter...
Apricity Gnome unter Win 10 via VirtualBox
André Driesel, 30.11.2016 06:28, 2 Antworten
Halo Leute, ich versuche hier schon seit mehreren Tagen Apricity OS Gnome via VirtualBox zum l...
EYE of Gnome
FRank Schubert, 15.11.2016 20:06, 2 Antworten
Hallo, EOG öffnet Fotos nur in der Größenordnung 4000 × 3000 Pixel. Größere Fotos werden nic...
Kamera mit Notebook koppeln
Karl Spiegel, 12.11.2016 15:02, 2 Antworten
Hi, Fotografen ich werde eine SONY alpha 77ii bekommen, und möchte die LifeView-Möglichkeit nu...
Linux auf externe SSD installieren
Roland Seidl, 28.10.2016 20:44, 1 Antworten
Bin mit einem Mac unterwegs. Mac Mini 2012 i7. Würde gerne Linux parallel betreiben. Aber auf e...