Tesseract

Die Entwicklung von Tesseract begann 1985. Im Gegensatz zu Cuneiform gibt die Software reine Textdateien aus. Dem Paket liegen Hilfsprogramme bei, mit denen Sie dem Programm neue Schriften beibringen (cntraining, mftraining). Ein OCR-Lauf mit Tesseract folgt der Syntax in Listing 1, Zeile 17.

Derzeit verarbeitet Tesseract folgende Sprachen: Deutsch (deu), Frakturschriften, Deutsch (deu-f), Englisch (eng), Französisch (fra), Niederländisch (nld), Italienisch (ita), Portugiesisch (por), Spanisch (spa) und Vietnamesisch (vie). Das Auswerten setzt die Daten in Form einer Bilddatei im TIF-Format voraus. Abbildung 7 zeigt einen Durchlauf. Im Vergleich zu Cuneiform erkennt Tesseract Sonderzeichen und Zahlen besser.

Abbildung 7: Tesseract wertet Sonderzeichen und Zahlen in vielen Fällen besser aus, als der Mitbewerber.

Helferlein

Das mächtige Programm Convert aus dem ImageMagick-Paket [5] hilft beim Erstellen der PDF-Datei aus der TIFF-Datei. Mit diesem haben Sie nicht nur die Möglichkeit, andere Formate zu verarbeiten, sondern auch weitere Eigenschaften von Bilddateien per Shell-Befehl ändern. Zum Erzeugen einer PDF-Datei reicht der Aufruf aus Listing 1, Zeile 31.

Mit Pdftk [6] fügen Sie PDF-Dateien zusammen. Zeile 32 in Listing 1 zeigt, wie sie die Software einsetzen. Weitere Funktionen des Programmes sind das Zerlegen, Rotieren, Ver- und Entschlüsseln und Verändern von PDF-Dateien.

Zum Erzeugen einer PDF-Datei aus einer Textdatei braucht es mehrere Schritte: Die allermeisten Distributionen setzen auf UTF-8 als Zeichensatz in der Shell. Nachdem viele Werkzeuge zum Konvertieren auf die Zeichensätze aus der ISO-8859-Familie getrimmt sind, setzen Sie als ersten Schritt mit Recode [7] die Textdatei um (Listing 1, Zeile 37). Das Programm setzt selbst uralte Zeichensätze aus den Siebziger Jahren des letzten Jahrhunderts um.

Mit Enscript [8] oder A2ps [9] erzeugen Sie als Zwischenschritt eine Postscript-Datei. Die beiden Programme unterscheiden sich vor allem in der Form der Ausgabe. Sie funktionieren aktuell nur mit den ISO-Zeichensätzen. Den Aufruf von A2ps sehen Sie in Listing , Zeile 38; der von Enscript funktioniert analog. Im letzten Schritt erzeugt das Skript ein PDF-File aus der Postscript-Datei. Hierfür bietet sich Ps2pdf14 aus dem Ghostscipt-Paket [10] an (Listing 1, Zeile 39).

Im letzten Schritt setzt das Skript die eingescannten Dokumente und den extrahierten Text zusammen. Damit erhalten Sie ein Dokument, dass Ihnen den Inhalt liefert und die Möglichkeit bietet, diesen mit üblichen Unix-Tools zu durchsuchen.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Eingescannte Texte automatisch erkennen
    Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
Kommentare

Infos zur Publikation

LU 06/2015: Shell-Tools

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 0 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Konsole / Terminal in Linux Mint 17.1 deutsch
Dirk Resag, 09.05.2015 23:39, 12 Antworten
Hallo an die Community, ich habe vor kurzem ein älteres Notebook, Amilo A1650G, 1GB Arbeitsspe...
Admin Probleme mit Q4os
Thomas Weiss, 30.03.2015 20:27, 6 Antworten
Hallo Leute, ich habe zwei Fragen zu Q4os. Die Installation auf meinem Dell Latitude D600 verl...
eeepc 1005HA externer sound Ausgang geht nicht
Dieter Drewanz, 18.03.2015 15:00, 1 Antworten
Hallo LC, nach dem Update () funktioniert unter KDE der externe Soundausgang an der Klinkenbuc...
AceCad DigiMemo A 402
Dr. Ulrich Andree, 15.03.2015 17:38, 2 Antworten
Moin zusammen, ich habe mir den elektronischen Notizblock "AceCad DigiMemo A 402" zugelegt und m...
Start-Job behindert Bootvorgang, Suse 13.2, KDE,
Wimpy *, 20.02.2015 10:32, 4 Antworten
Beim Bootvorgang ist ein Timeout von 1 Min 30 Sec. weil eine Partition sdb1 gesucht und nicht gef...