Richtig digitalisieren
E-Books aus Buchscans als DjVu oder PDF mit OCR-Layer
Frontends
Es gibt mittlerweile Frontends, die die einzelnen hier beschriebenen Prozeduren beim Erstellen eines E-Books bis hin zum fertigen DjVu oder PDF übernehmen. Gscan2pdf [16] vereint als starke GUI-Applikation alle Komponenten von den Scanprogrammen über Unpaper bis hin zum OCR unter einer Haube (Version 0.9.29 auf Debian Stable, Ubuntu "Karmic" und OpenSuse 11.2). Seit der neuesten Version Gscan2pdf 0.9.30 (Debian "Squeeze" und Fedora 12) gibt es auch einen Port zu Ocropus.
Eine andere, wenn auch nicht ganz so luxuriöse Applikation ist Scantailor [17]. Für größere Projekte inklusive Archivierung lohnt es sich, ein Blick auf die freien großen E-Dokumenten-Server wie Archivistabox [18] oder OpenDias [19] zu werfen. Diese eignen sich allerdings eher für große Dokumentenaufkommen. Nichts desto trotz gibt es hier teilweise sehr enge Entwicklungen zu der allerneuesten freien OCR-Software, die auch in diesem Workshop zum Einsatz kam [20].
Glossar
DjVu
Als "Déjà-vu" gesprochen. Ein von AT&T entwickeltes Containerformat für Rastergrafiken. Die potenzielle PDF-Alternative bietet DjVu einen effektiveren und schnelleren Komprimierungsalgorithmus. Es gibt Betrachter für alle gängigen Plattformen.
OCR
Optical Character Recognition, optische Zeichenerkennung. Verfahren zum automatischen Erkennen von Text in digitalen Bildern.
Layoutanalyse
Beim OCR-Prozess erfasst die Software zusätzlich zum Text auch Positionsdaten. Das ermöglicht es, bei der Suche im E-Book das gesuchte Wort hervorzuheben.
HOCR
Auf XHTML basierendes Datenformat für Texterkennungsergebnisse, das unter anderem das Layout des erkannten Textes beinhaltet.
Infos
[1] Sane: http://www.sane-project.org
[2] Xsane: Kristian Kißling, "Aber bitte mit XSane!", LinuxUser 10/2005, S. 42, http://www.linux-user.de/ausgabe/2005/10/042-xsane/
[3] ImageMagick: Heike Jurzik, "Einfach zauberhaft", LinuxUser 10/2005, S. 52, http://www.linux-user.de/ausgabe/2005/10/052-imagemagick/
[4] Geeqie: http://geeqie.sourceforge.net
[5] Gimp: http://www.gimp.org
[6] Unpaper: http://unpaper.berlios.de
[7] DjVu: http://djvu.sourceforge.net
[8] Tesseract: http://code.google.com/p/tesseract-ocr/
[9] Ocropus: http://code.google.com/p/ocropus/
[10] HOCR: http://de.wikipedia.org/wiki/HOCR_(Standard)
[11] ExactImage: http://www.exactcode.de/site/open_source/exactimage/
[12] Highlighting-Bug (5. Kommentar): http://tinyurl.com/yhao2jk
[13] Pdftk: http://www.accesspdf.com/pdftk/
[14] Ocrodjvu: http://jwilk.net/software/ocrodjvu.html
[15] Aspell: http://aspell.net
[16] Gscan2pdf: http://gscan2pdf.sourceforge.net
[17] Scantailor: http://scantailor.sourceforge.net
[18] Archivistabox: http://www.archivista.ch/index.pl/archivistabox4
[19] OpenDias: http://essentialcollections.co.uk/openDIAS/
[20] U. Pfister, "Open Source Texterkennung unter Linux", http://www.archivista.ch/de/media/ocr2.pdf



