Frontends

Es gibt mittlerweile Frontends, die die einzelnen hier beschriebenen Prozeduren beim Erstellen eines E-Books bis hin zum fertigen DjVu oder PDF übernehmen. Gscan2pdf [16] vereint als starke GUI-Applikation alle Komponenten von den Scanprogrammen über Unpaper bis hin zum OCR unter einer Haube (Version 0.9.29 auf Debian Stable, Ubuntu "Karmic" und OpenSuse 11.2). Seit der neuesten Version Gscan2pdf 0.9.30 (Debian "Squeeze" und Fedora 12) gibt es auch einen Port zu Ocropus.

Eine andere, wenn auch nicht ganz so luxuriöse Applikation ist Scantailor [17]. Für größere Projekte inklusive Archivierung lohnt es sich, ein Blick auf die freien großen E-Dokumenten-Server wie Archivistabox [18] oder OpenDias [19] zu werfen. Diese eignen sich allerdings eher für große Dokumentenaufkommen. Nichts desto trotz gibt es hier teilweise sehr enge Entwicklungen zu der allerneuesten freien OCR-Software, die auch in diesem Workshop zum Einsatz kam [20]

Glossar

DjVu

Als "Déjà-vu" gesprochen. Ein von AT&T entwickeltes Containerformat für Rastergrafiken. Die potenzielle PDF-Alternative bietet DjVu einen effektiveren und schnelleren Komprimierungsalgorithmus. Es gibt Betrachter für alle gängigen Plattformen.

OCR

Optical Character Recognition, optische Zeichenerkennung. Verfahren zum automatischen Erkennen von Text in digitalen Bildern.

Layoutanalyse

Beim OCR-Prozess erfasst die Software zusätzlich zum Text auch Positionsdaten. Das ermöglicht es, bei der Suche im E-Book das gesuchte Wort hervorzuheben.

HOCR

Auf XHTML basierendes Datenformat für Texterkennungsergebnisse, das unter anderem das Layout des erkannten Textes beinhaltet.

Infos

[1] Sane: http://www.sane-project.org

[2] Xsane: Kristian Kißling, "Aber bitte mit XSane!", LinuxUser 10/2005, S. 42, http://www.linux-user.de/ausgabe/2005/10/042-xsane/

[3] ImageMagick: Heike Jurzik, "Einfach zauberhaft", LinuxUser 10/2005, S. 52, http://www.linux-user.de/ausgabe/2005/10/052-imagemagick/

[4] Geeqie: http://geeqie.sourceforge.net

[5] Gimp: http://www.gimp.org

[6] Unpaper: http://unpaper.berlios.de

[7] DjVu: http://djvu.sourceforge.net

[8] Tesseract: http://code.google.com/p/tesseract-ocr/

[9] Ocropus: http://code.google.com/p/ocropus/

[10] HOCR: http://de.wikipedia.org/wiki/HOCR_(Standard)

[11] ExactImage: http://www.exactcode.de/site/open_source/exactimage/

[12] Highlighting-Bug (5. Kommentar): http://tinyurl.com/yhao2jk

[13] Pdftk: http://www.accesspdf.com/pdftk/

[14] Ocrodjvu: http://jwilk.net/software/ocrodjvu.html

[15] Aspell: http://aspell.net

[16] Gscan2pdf: http://gscan2pdf.sourceforge.net

[17] Scantailor: http://scantailor.sourceforge.net

[18] Archivistabox: http://www.archivista.ch/index.pl/archivistabox4

[19] OpenDias: http://essentialcollections.co.uk/openDIAS/

[20] U. Pfister, "Open Source Texterkennung unter Linux", http://www.archivista.ch/de/media/ocr2.pdf

Der Autor

Daniel Stender promoviert in klassischer Indologie und benutzt seit Jahren ausschließlich Debian auf dem Desktop. Er interessiert sich für den Einsatz von Open-Source-Applikationen in der Sanskrit-Philologie. Sie finden seinen Blog unter http://www.danielstender.com/granthinam.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Scannen und OCR mit Gscan2pdf
    Vom gedruckten Wort bis zum digitalen Dokument in nur wenigen Schritten: Das Programm Gscan2pdf macht's möglich, weil es mehrere Tools unter einem Dach vereint.
  • Bits statt Papier
    Mit einem digitalen Archiv sparen Sie Platz im Aktenschrank – aber Paperwork macht das Leben nicht unbedingt leichter.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Weniger ist mehr
    Das ursprünglich für die automatische Bildaufbereitung von gescannten Bildern entwickelte ExactImage lässt sich auch im Alltag an verschiedenen Stellen nutzbringend einsetzen.
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
Kommentare

Infos zur Publikation

LU 04/2017: SPEZIAL-DISTRIBUTIONEN

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

WLAN lässt sich nicht einrichten
Werner Hahn, 21.03.2017 14:16, 0 Antworten
Dell Latitude E6510, Ubuntu 16.4, Kabelbox von Telecolumbus. Nach Anklicken des Doppelpfeiles (o...
"Mit Gwenview importieren" funktioniert seit openSuse 42.2 nicht mehr
Wimpy *, 20.03.2017 13:34, 2 Antworten
Bisher konnte ich von Digitalkamera oder SD-Karte oder USB-Stick Fotos mit Gwenview importieren....
Ich habe eine awk Aufgabe und bekomme es nicht so Recht hin
Dennis Hamacher, 10.03.2017 18:27, 1 Antworten
Ich hoffe Ihr könnt mir dabei helfen oder mir zeigen wie der Befehl richtig geschrieben wird. Ich...
Unter Linux Open Suse Leap 42.1 einen Windows Boot/ ISO USB Stick erstellen...
Tim Koetsier, 07.03.2017 15:26, 1 Antworten
Hallo, weiß jemand wie ich oben genanntes Vorhaben in die Tat umsetzen kann ? Wäre echt dankba...
Druckertreiber installieren OpenSuse42.1
Tim Koetsier, 07.03.2017 15:22, 1 Antworten
hallo, kann mir BITTE jemand helfen ich verzweifel so langsam. Habe einen Super Toner von Canon...