Home / LinuxUser / 2013 / 07 / Texte scannen und mit OCR nachbearbeiten

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Eingedost
(161 Punkte bei 4 Stimmen)
Aufteiler
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.

AA_sign_hworks_sxc_1380699.jpg

© Hworks, sxc.hu

Mühsam entziffert

Texte scannen und mit OCR nachbearbeiten

21.06.2013 Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.

Wer gedruckte Schrift in digitaler Form richtig nutzen möchte, braucht Sie in einer Form, die ein Durchsuchen erlaubt. Ein reines Umwandeln in Bitmaps macht das nicht möglich. Darf das Layout der Informationen gegenüber dem Original abweichen, bietet sich ein Speichern als ASCII-Text an.

Möchten Sie das Original erhalten, ist das PDF die erste Wahl, das am Anfang oder Ende die per Texterkennung (OCR) gewonnene Information zusätzlich beinhaltet. Diese Datei durchsuchen Sie unter Linux dann mit gängigen Werkzeugen wie Grep.

Hinter vielen GUI-Anwendungen zum Scannen und zur Texterkennung arbeiten Werkzeuge im Hintergrund. Deren Möglichkeiten stehen alternativ direkt als Shell-Kommando bereit. Auf diese Weise schaffen Sie bei Bedarf eigene Tools, die genau Ihren Anforderungen entsprechen. Die Grundlagen bilden Scanimage und Cuneiform oder Tesseract.

Vom Papier zur Bild

Installieren Sie die Pakete libsane und sane-utils [1]. Es ist nicht zwingend notwendig, den Sane-Daemon zu starten. Im normalen Betrieb reicht der Aufruf des Programmes in einem Terminal. Bei der Installation über den Paketmanager legt das Setup einen Benutzer sane oder scanner in /etc/passwd zusammen mit einer entsprechenden Gruppe an. Fügen Sie in /etc/group in der zutreffenden Zeile jene Benutzer hinzu, die auf den Scanner zugreifen dürfen. Das sieht dann ähnlich dem folgenden Beispiel aus:

scanner:x:115:saned,harald,monika,kopierer

Die Anleitung von Sane gibt umfangreiche Hinweise darauf, wie und ob die Software einen Scanner unterstützt. In

...

Liebe Leserin, lieber Leser,

dieser Artikel ist nur für Mitglieder der LinuxCommunity zugänglich, die ein Archiv-Abo der Zeitschrift LinuxUser besitzen. Das Archiv-Abonnement kostet zusätzlich zum Printabo 1 Euro pro Monat und bietet vollen Online-Zugriff auf sämtliche LinuxUser-Artikel, Chat-Workshops und das exklusive LC-Klubforum.

Falls Sie bereits Abonnent eines Archiv-Abos sind, melden Sie sich bitte über das Login-Menü an.

Um ein Archiv-Abonnement abzuschließen, bestellen Sie dieses bitte in unserem Online-Shop.

LinuxUser-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift LinuxUser finden Sie im Archiv.

Tip a friend    Druckansicht Bookmark and Share
Kommentare

970 Hits
Wertung: 0 Punkte (0 Stimmen)

Infos zur Publikation

Infos zur Publikation

LinuxUser 05/2014

Aktuelle Ausgabe kaufen:

Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,95 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 60,60) können Sie im Medialinx-Shop bestellen.

Tipp der Woche

Bilder vergleichen mit diffimg
Bilder vergleichen mit diffimg
Tim Schürmann, 01.04.2014 12:40, 1 Kommentare

Das kleine Werkzeug diffimg kann zwei (scheinbar) identische Bilder miteinander vergleichen und die Unterschiede optisch hervorheben. Damit lassen sich nicht nur Rätsel a la „Orignial und Fäls...

Aktuelle Fragen

programm suche
Hans-Joachim Köpke, 13.04.2014 10:43, 8 Antworten
suche noch programme die zu windows gibt, die auch unter linux laufen bzw sich ähneln sozusagen a...
Funknetz (Web-Stick)
Hans-Joachim Köpke, 04.04.2014 07:31, 2 Antworten
Bei Windows7 brauche ich den Stick nur ins USB-Fach schieben dann erkennt Windows7 Automatisch, a...
Ubuntu 13.10 überschreibt immer Windows 8 Bootmanager
Thomas Weiss, 15.03.2014 19:20, 8 Antworten
Hallo Leute, ich hoffe das ich richtig bin. Ich habe einen Dell Insipron 660 Ich möchte gerne Ub...
USB-PTP-Class Kamera wird nicht erkannt (Windows-only)
Wimpy *, 14.03.2014 13:04, 15 Antworten
ich habe meiner Frau eine Digitalkamera, AGFA Optima 103, gekauft und wir sind sehr zufrieden dam...
Treiber
Michael Kristahn, 12.03.2014 08:28, 5 Antworten
Habe mir ein Scanner gebraucht gekauft von Canon CanoScan LiDE 70 kein Treiber wie bekomme ich de...