Frontends

Es gibt mittlerweile Frontends, die die einzelnen hier beschriebenen Prozeduren beim Erstellen eines E-Books bis hin zum fertigen DjVu oder PDF übernehmen. Gscan2pdf [16] vereint als starke GUI-Applikation alle Komponenten von den Scanprogrammen über Unpaper bis hin zum OCR unter einer Haube (Version 0.9.29 auf Debian Stable, Ubuntu "Karmic" und OpenSuse 11.2). Seit der neuesten Version Gscan2pdf 0.9.30 (Debian "Squeeze" und Fedora 12) gibt es auch einen Port zu Ocropus.

Eine andere, wenn auch nicht ganz so luxuriöse Applikation ist Scantailor [17]. Für größere Projekte inklusive Archivierung lohnt es sich, ein Blick auf die freien großen E-Dokumenten-Server wie Archivistabox [18] oder OpenDias [19] zu werfen. Diese eignen sich allerdings eher für große Dokumentenaufkommen. Nichts desto trotz gibt es hier teilweise sehr enge Entwicklungen zu der allerneuesten freien OCR-Software, die auch in diesem Workshop zum Einsatz kam [20]

Glossar

DjVu

Als "Déjà-vu" gesprochen. Ein von AT&T entwickeltes Containerformat für Rastergrafiken. Die potenzielle PDF-Alternative bietet DjVu einen effektiveren und schnelleren Komprimierungsalgorithmus. Es gibt Betrachter für alle gängigen Plattformen.

OCR

Optical Character Recognition, optische Zeichenerkennung. Verfahren zum automatischen Erkennen von Text in digitalen Bildern.

Layoutanalyse

Beim OCR-Prozess erfasst die Software zusätzlich zum Text auch Positionsdaten. Das ermöglicht es, bei der Suche im E-Book das gesuchte Wort hervorzuheben.

HOCR

Auf XHTML basierendes Datenformat für Texterkennungsergebnisse, das unter anderem das Layout des erkannten Textes beinhaltet.

Infos

[1] Sane: http://www.sane-project.org

[2] Xsane: Kristian Kißling, "Aber bitte mit XSane!", LinuxUser 10/2005, S. 42, http://www.linux-user.de/ausgabe/2005/10/042-xsane/

[3] ImageMagick: Heike Jurzik, "Einfach zauberhaft", LinuxUser 10/2005, S. 52, http://www.linux-user.de/ausgabe/2005/10/052-imagemagick/

[4] Geeqie: http://geeqie.sourceforge.net

[5] Gimp: http://www.gimp.org

[6] Unpaper: http://unpaper.berlios.de

[7] DjVu: http://djvu.sourceforge.net

[8] Tesseract: http://code.google.com/p/tesseract-ocr/

[9] Ocropus: http://code.google.com/p/ocropus/

[10] HOCR: http://de.wikipedia.org/wiki/HOCR_(Standard)

[11] ExactImage: http://www.exactcode.de/site/open_source/exactimage/

[12] Highlighting-Bug (5. Kommentar): http://tinyurl.com/yhao2jk

[13] Pdftk: http://www.accesspdf.com/pdftk/

[14] Ocrodjvu: http://jwilk.net/software/ocrodjvu.html

[15] Aspell: http://aspell.net

[16] Gscan2pdf: http://gscan2pdf.sourceforge.net

[17] Scantailor: http://scantailor.sourceforge.net

[18] Archivistabox: http://www.archivista.ch/index.pl/archivistabox4

[19] OpenDias: http://essentialcollections.co.uk/openDIAS/

[20] U. Pfister, "Open Source Texterkennung unter Linux", http://www.archivista.ch/de/media/ocr2.pdf

Der Autor

Daniel Stender promoviert in klassischer Indologie und benutzt seit Jahren ausschließlich Debian auf dem Desktop. Er interessiert sich für den Einsatz von Open-Source-Applikationen in der Sanskrit-Philologie. Sie finden seinen Blog unter http://www.danielstender.com/granthinam.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

Lu07/2016: GIMP FÜR PROFIS

Digitale Ausgabe: Preis € 5,99
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Aktuelle Fragen

Mit Firewire Videos improtieren?
Werner Hahn, 09.06.2016 11:06, 5 Antworten
Ich besitze den Camcorder Panasonic NV-GS330, bei dem die Videos in guter Qualität nur über den 4...
lidl internetstick für linux mint
rolf meyer, 04.06.2016 14:17, 3 Antworten
hallo zusammen ich benötige eure hilfe habe einen lidl-internetstick möchte ihn auf linux mint i...
thema ändern
a b, 29.05.2016 16:34, 0 Antworten
Hallo Linuxer zuerst alle eine schönen Sonntag, bevor ich meine Frage stelle. Ich habe Ubuntu 1...
Ideenwettbewerb
G.-P. Möller, 28.05.2016 10:57, 0 Antworten
Liebe User, im Rahmen eines großen Forschungsprojekts am Lehrstuhl für Technologie- und Innova...
Welche Drucker sind Linux-mint kompatibel?
Johannes Nacke, 20.05.2016 07:32, 6 Antworten
Hallo Ihr Lieben, ich bitte um mitteilung welche Drucker Kompatibel sind mit Linux-Mint. LG Joh...