AA_sign_hworks_sxc_1380699.jpg

© Hworks, sxc.hu

Mühsam entziffert

Texte scannen und mit OCR nachbearbeiten

21.06.2013 Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.

Wer gedruckte Schrift in digitaler Form richtig nutzen möchte, braucht Sie in einer Form, die ein Durchsuchen erlaubt. Ein reines Umwandeln in Bitmaps macht das nicht möglich. Darf das Layout der Informationen gegenüber dem Original abweichen, bietet sich ein Speichern als ASCII-Text an.

Möchten Sie das Original erhalten, ist das PDF die erste Wahl, das am Anfang oder Ende die per Texterkennung (OCR) gewonnene Information zusätzlich beinhaltet. Diese Datei durchsuchen Sie unter Linux dann mit gängigen Werkzeugen wie Grep.

Hinter vielen GUI-Anwendungen zum Scannen und zur Texterkennung arbeiten Werkzeuge im Hintergrund. Deren Möglichkeiten stehen alternativ direkt als Shell-Kommando bereit. Auf diese Weise schaffen Sie bei Bedarf eigene Tools, die genau Ihren Anforderungen entsprechen. Die Grundlagen bilden Scanimage und Cuneiform oder Tesseract.

Vom Papier zur Bild

Installieren Sie die Pakete libsane und sane-utils [1]. Es ist nicht zwingend notwendig, den Sane-Daemon zu starten. Im normalen Betrieb reicht der Aufruf des Programmes in einem Terminal. Bei der Installation über den Paketmanager legt das Setup einen Benutzer sane oder scanner in /etc/passwd zusammen mit einer entsprechenden Gruppe an. Fügen Sie in /etc/group in der zutreffenden Zeile jene Benutzer hinzu, die auf den Scanner zugreifen dürfen. Das sieht dann ähnlich dem folgenden Beispiel aus:

scanner:x:115:saned,harald,monika,kopierer

Die Anleitung von Sane gibt umfangreiche Hinweise darauf, wie und ob die Software einen Scanner unterstützt. In

...

Liebe Leserin, lieber Leser,

dieser Artikel ist nur für Mitglieder der LinuxCommunity zugänglich, die ein Archiv-Abo der Zeitschrift LinuxUser besitzen. Das Archiv-Abonnement kostet zusätzlich zum Printabo 1 Euro pro Monat und bietet vollen Online-Zugriff auf sämtliche LinuxUser-Artikel, Chat-Workshops und das exklusive LC-Klubforum.

Falls Sie bereits Abonnent eines Archiv-Abos sind, melden Sie sich bitte über das Login-Menü an.

Um ein Archiv-Abonnement abzuschließen, bestellen Sie dieses bitte in unserem Online-Shop.

LinuxUser-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift LinuxUser finden Sie im Archiv.

Tip a friend    Druckansicht beenden Bookmark and Share
Kommentare