Frontends

Es gibt mittlerweile Frontends, die die einzelnen hier beschriebenen Prozeduren beim Erstellen eines E-Books bis hin zum fertigen DjVu oder PDF übernehmen. Gscan2pdf [16] vereint als starke GUI-Applikation alle Komponenten von den Scanprogrammen über Unpaper bis hin zum OCR unter einer Haube (Version 0.9.29 auf Debian Stable, Ubuntu "Karmic" und OpenSuse 11.2). Seit der neuesten Version Gscan2pdf 0.9.30 (Debian "Squeeze" und Fedora 12) gibt es auch einen Port zu Ocropus.

Eine andere, wenn auch nicht ganz so luxuriöse Applikation ist Scantailor [17]. Für größere Projekte inklusive Archivierung lohnt es sich, ein Blick auf die freien großen E-Dokumenten-Server wie Archivistabox [18] oder OpenDias [19] zu werfen. Diese eignen sich allerdings eher für große Dokumentenaufkommen. Nichts desto trotz gibt es hier teilweise sehr enge Entwicklungen zu der allerneuesten freien OCR-Software, die auch in diesem Workshop zum Einsatz kam [20]

Glossar

DjVu

Als "Déjà-vu" gesprochen. Ein von AT&T entwickeltes Containerformat für Rastergrafiken. Die potenzielle PDF-Alternative bietet DjVu einen effektiveren und schnelleren Komprimierungsalgorithmus. Es gibt Betrachter für alle gängigen Plattformen.

OCR

Optical Character Recognition, optische Zeichenerkennung. Verfahren zum automatischen Erkennen von Text in digitalen Bildern.

Layoutanalyse

Beim OCR-Prozess erfasst die Software zusätzlich zum Text auch Positionsdaten. Das ermöglicht es, bei der Suche im E-Book das gesuchte Wort hervorzuheben.

HOCR

Auf XHTML basierendes Datenformat für Texterkennungsergebnisse, das unter anderem das Layout des erkannten Textes beinhaltet.

Infos

[1] Sane: http://www.sane-project.org

[2] Xsane: Kristian Kißling, "Aber bitte mit XSane!", LinuxUser 10/2005, S. 42, http://www.linux-user.de/ausgabe/2005/10/042-xsane/

[3] ImageMagick: Heike Jurzik, "Einfach zauberhaft", LinuxUser 10/2005, S. 52, http://www.linux-user.de/ausgabe/2005/10/052-imagemagick/

[4] Geeqie: http://geeqie.sourceforge.net

[5] Gimp: http://www.gimp.org

[6] Unpaper: http://unpaper.berlios.de

[7] DjVu: http://djvu.sourceforge.net

[8] Tesseract: http://code.google.com/p/tesseract-ocr/

[9] Ocropus: http://code.google.com/p/ocropus/

[10] HOCR: http://de.wikipedia.org/wiki/HOCR_(Standard)

[11] ExactImage: http://www.exactcode.de/site/open_source/exactimage/

[12] Highlighting-Bug (5. Kommentar): http://tinyurl.com/yhao2jk

[13] Pdftk: http://www.accesspdf.com/pdftk/

[14] Ocrodjvu: http://jwilk.net/software/ocrodjvu.html

[15] Aspell: http://aspell.net

[16] Gscan2pdf: http://gscan2pdf.sourceforge.net

[17] Scantailor: http://scantailor.sourceforge.net

[18] Archivistabox: http://www.archivista.ch/index.pl/archivistabox4

[19] OpenDias: http://essentialcollections.co.uk/openDIAS/

[20] U. Pfister, "Open Source Texterkennung unter Linux", http://www.archivista.ch/de/media/ocr2.pdf

Der Autor

Daniel Stender promoviert in klassischer Indologie und benutzt seit Jahren ausschließlich Debian auf dem Desktop. Er interessiert sich für den Einsatz von Open-Source-Applikationen in der Sanskrit-Philologie. Sie finden seinen Blog unter http://www.danielstender.com/granthinam.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Scannen und OCR mit Gscan2pdf
    Vom gedruckten Wort bis zum digitalen Dokument in nur wenigen Schritten: Das Programm Gscan2pdf macht's möglich, weil es mehrere Tools unter einem Dach vereint.
  • Bits statt Papier
    Mit einem digitalen Archiv sparen Sie Platz im Aktenschrank – aber Paperwork macht das Leben nicht unbedingt leichter.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Weniger ist mehr
    Das ursprünglich für die automatische Bildaufbereitung von gescannten Bildern entwickelte ExactImage lässt sich auch im Alltag an verschiedenen Stellen nutzbringend einsetzen.
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
Kommentare

Infos zur Publikation

LU 11/2017: Server für Daheim

Digitale Ausgabe: Preis € 8,50
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 3 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...
Backup mit KUP unter Suse 42.3
Horst Schwarz, 24.09.2017 13:16, 3 Antworten
Ich möchte auch wieder unter Suse 42.3 mit Kup meine Backup durchführen. Eine Installationsmöglic...
kein foto, etc. upload möglich, wo liegt mein fehler?
kerstin brums, 17.09.2017 22:08, 5 Antworten
moin, zum erstellen einer einfachen wordpress website kann ich keine fotos uploaden. vom rechne...
Arch Linux Netzwerkkonfigurationen
Franziska Schley, 15.09.2017 18:04, 0 Antworten
Moin liebe Linux community, ich habe momentan Probleme mit der Einstellung des Lan/Wlan in Arc...