Fazit:

Das Einscannen von Dokumenten und das Extrahieren von Text aus diesen gelingt mit den Werkzeugen der Shell ohne großen Aufwand. Das Muster-Skript liefert bereits ein funktionsfähiges Ergebnis. Mit ein wenig Shell-Know-how erweitern Sie es und passen es auf Ihre Bedürfnisse leicht erweitern, zum Beispiel mit dem Tool Unpaper [11]

Glossar

OCR

Optical Character Recognition (engl.). Ein Verfahren zum automatisierten Erkennen von Textstellen durch optische Lesegeräte sowie das anschließende Umwandeln in Textzeichen inklusive Fehlerkorrektur.

Infos

[1] Sane: http://www.sane-project.org/

[2] Scanner installieren: http://wiki.ubuntuusers.de/Scanner

[3] Cuneiform: Erik Bärwaldt, "Alphabetisierung", LU 04/2011, S. 48, http://www.linux-community.de/22836

[4] Tesseract: Erik Bärwaldt, "Buchstabensalat", LU 05/2011, S. 84, http://www.linux-community.de/22905

[5] ImageMagick: Thomas Drilling, "Zauberkasten", LU 08/2012, S. 68, http://www.linux-community.de/26395

[6] Pdftk: http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit

[7] Recode: http://recode.progiciels-bpi.ca/index.html

[8] Enscript: http://www.markkurossi.com/genscript/

[9] A2ps: http://www.inf.enst.fr/~demaille/a2ps/

[10] Ghostscript: http://www.ghostscript.com/

[11] Unpaper: http://unpaper.berlios.de

Der Autor

Harald Zisler beschäftigt sich seit den frühen 90er Jahren beruflich und privat mit Unix, FreeBSD und Linux. Zu Technik- und EDV-Themen verfasst er Bücher sowie Beiträge für Zeitschriften. Aktuell erschien die zweite Auflage von "Computer-Netzwerke" bei Galileo Press.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Eingescannte Texte automatisch erkennen
    Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
Kommentare

Infos zur Publikation

LU 09/2015: Paketverwaltung

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 2 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Scanner EPSON Perfection V 300 photo und VueScan
Roland Welcker, 19.08.2015 09:04, 1 Antworten
Verehrte Linux-Freunde, ich habe VueScan in /usr/local/src/vuex_3295/VueScan installiert, dazu d...
Empfehlung gesucht Welche Dist als Wirt für VM ?
Roland Fischer, 31.07.2015 20:53, 2 Antworten
Wer kann mir Empfehlungen geben welche Distribution gut geeignet ist als Wirt für eine VM für Win...
Plugins bei OPERA - Linux Mint 17.1
Christoph-J. Walter, 23.07.2015 08:32, 3 Antworten
Beim Versuch Video-Sequenzen an zu schauen kommt die Meldung -Plug-ins und Shockwave abgestürzt-....
Wird Windows 10 update/upgrade mein Grub zerstören ?
daniel s, 22.07.2015 08:31, 7 Antworten
oder rührt Windows den Bootloader nicht an? das ist auch alles was Google mir nicht beantw...
Z FUER Y UND ANDERE EINGABEFEHLER AUF DER TASTATUR
heide marie voigt, 10.07.2015 13:53, 2 Antworten
BISHER konnte ich fehlerfrei schreiben ... nun ist einiges drucheinander geraten ... ich war bei...