Fazit:
Das Einscannen von Dokumenten und das Extrahieren von Text aus diesen gelingt mit den Werkzeugen der Shell ohne großen Aufwand. Das Muster-Skript liefert bereits ein funktionsfähiges Ergebnis. Mit ein wenig Shell-Know-how erweitern Sie es und passen es auf Ihre Bedürfnisse leicht erweitern, zum Beispiel mit dem Tool Unpaper [11].
OCR
Optical Character Recognition (engl.). Ein Verfahren zum automatisierten Erkennen von Textstellen durch optische Lesegeräte sowie das anschließende Umwandeln in Textzeichen inklusive Fehlerkorrektur.
[1] Sane: http://www.sane-project.org/
[2] Scanner installieren: http://wiki.ubuntuusers.de/Scanner
[3] Cuneiform: Erik Bärwaldt, "Alphabetisierung", LU 04/2011, S. 48, http://www.linux-community.de/22836
[4] Tesseract: Erik Bärwaldt, "Buchstabensalat", LU 05/2011, S. 84, http://www.linux-community.de/22905
[5] ImageMagick: Thomas Drilling, "Zauberkasten", LU 08/2012, S. 68, http://www.linux-community.de/26395
[6] Pdftk: http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit
[7] Recode: http://recode.progiciels-bpi.ca/index.html
[8] Enscript: http://www.markkurossi.com/genscript/
[9] A2ps: http://www.inf.enst.fr/~demaille/a2ps/
[10] Ghostscript: http://www.ghostscript.com/
[11] Unpaper: http://unpaper.berlios.de
Harald Zisler beschäftigt sich seit den frühen 90er Jahren beruflich und privat mit Unix, FreeBSD und Linux. Zu Technik- und EDV-Themen verfasst er Bücher sowie Beiträge für Zeitschriften. Aktuell erschien die zweite Auflage von "Computer-Netzwerke" bei Galileo Press.
Diesen Artikel als PDF kaufen
Express-Kauf als PDF
Preis € 0,99 (inkl. 19% MwSt.)
LinuxCommunity kaufen
TABLET & SMARTPHONE APPS
 Bald erhältlich
Deutschland
Ähnliche Artikel
-
Richtig digitalisieren
Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
-
Texterkennung mit Tesseract
Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
-
Dokumente mit gscan2pdf scannen
Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
-
Eingescannte Texte automatisch erkennen
Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.
-
Paperwork im Kampf gegen wachsende Aktenberge
Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
|
Infos zur Publikation
Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)
LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.
Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.
Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.
HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!
Aktuelle Fragen
added to access control list
Ingrid Kroll,
27.03.2018 07:59,
10 Antworten
Hallo allerseits,
bin einfache Nutzerin und absolut Linux-unwissend............ Beim ganz norm...
|
Passwortsicherheit
Joe Cole,
15.03.2018 15:15,
2 Antworten
Ich bin derzeit selbständig und meine Existenz hängt am meinem Unternehmen. Wahrscheinlich verfol...
|
Brother drucker einrichten.
Achim Zerrer,
13.03.2018 11:26,
1 Antworten
Da mein Rechner abgestürzt war, musste ich das Betriebssystem neu einrichten.
Jetzt hänge ich wi...
|
Internet abschalten
Karl-Heinz Hauser,
20.02.2018 20:10,
2 Antworten
In der Symbolleiste kann man das Kabelnetzwerk ein und ausschalten.
Wie sicher ist die Abschaltu...
|
JQuery-Script läuft nicht mit Linux-Browsern
Stefan Jahn,
16.02.2018 12:49,
2 Antworten
Hallo zusammen,
...folgender goldener Code (ein jQuery-Script als Ergebnis verschiedener Exper...
|
|