Hilfsprogramme

Die anderen Programme aus der ExactImage-Suite sind speziellerer Natur. So wertet Bardecode gescannte Barcodes automatisch aus, was auch bei relativ schlechten Bildern noch gelingt. E2mtiff fasst mehrere Bilder zu einer mehrseitigen TIFF-Datei zusammen:

$ e2mtiff x1.jpg x2.png ... -o out.tiff

Mehrseitige TIFFs sind unter Linux weder besonders verbreitet noch sonderlich beliebt. Allerdings kann Gimp sie durchaus öffnen und auch bearbeiten. Abbildung 1 zeigt, wie sich ein mehrseitiges TIFF in Gimp beim Laden bemerkbar macht. Sie können nun die als Ebenen vorliegenden Seiten einzeln bearbeiten (Abbildung 2) oder – durch das Ziehen mit der Maus auf den Werkzeugkasten – in neue Bilder umwandeln.

Abb. 1: Gimp fragt beim Öffnen von mehrseitigen TIFFs, welche Seiten er als Ebenen öffnen soll.
Abb. 2: Anschließend finden Sie die Seiten als normale Ebenen im Ebenendock.

Optimize2bw bereitet gescannte Seiten so auf, dass sie sich optimal für das anschließende Bearbeiten mittels OCR eignen. Dabei erkennt Empty-page leere Seiten, sodass diese sich vorab aussortieren lassen.

Bei Hocr2pdf schließlich handelt es sich um das vermutlich am meisten verwendete Tool aus der ExactImage-Programmsuite.

Durchsuchbare PDFs

Mit Hocr2pdf erzeugen Sie bei Bedarf durchsuchbare PDFs aus gescannten Vorlagen. Diese PDFs bestehen im Prinzip aus zwei Ebenen: Eine nimmt die gescannte Grafik auf, eine zweite – oft unsichtbar darunterliegende – den aus der OCR-Bearbeitung resultierenden Text. In dieser zweiten Ebene erfolgt die Suche, sie sollte daher möglichst gut mit der grafischen Ebene übereinstimmen.

Eine ganze Reihe von Programmen nutzen Hocr2pdf, um solche "Sandwich"-PDFs zu erzeugen. Dazu zählen beispielsweise Pdfocr, das weitestgehend automatisch arbeitende Pdfsandwich [4], Xsane2sandwich [5] sowie Djvu2pdf [6], das aus Djvu-Daten eine hOCR-Datei extrahiert und ein durchsuchbares PDF erzeugt. Wie gut das klappt, zeigt Abbildung 3, in der die blauen Kästchen die erkannten Worte markieren.

Abb. 3: Ein mittels Hocr2pdf erzeugtes Sandwich-PDF.

Die Anwendung von Hocr2pdf gestaltet sich relativ einfach, wobei es die hOCR-Daten über den Standardeingabekanal erwartet (Listing 4, erste Zeile). Die hOCR-Dateien erzeugen Sie wahlweise mit Cuneiform oder auch mit Tesseract und bearbeiten sie gegebenenfalls mit den hOCR-Tools [7] nach. Falls die Ausrichtung des Texts nicht zum gescannten Bild passt, kann Hocr2pdf dies mit der Option -s (--sloppy-text) anpassen (Listing 4, zweite Zeile).

$ hocr2pdf -i scan.tiff -o out.pdf < Text.hocr
$ hocr2pdf -i scan.tiff -s -o out.pdf < Text.hocr

Hocr2pdf kennt ansonsten nur noch wenige weitere Optionen, alles andere erfolgt automatisch. Der Schalter -i definiert die grafische Eingabedatei, -o die fertige Ausgabedatei. Durch -n lässt sich das Einbinden der grafischen Ebene verhindern, mit -r die Auflösung dafür einstellen. Als Vorgabe nutzt Hocr2pdf hier 300 dpi.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Zügiger Wechsel
    Manchmal muss man einen ganzen Schwung Bilder am Stück konvertieren. Hier macht ExactImage dem traditionellen ImageMagick Konkurrenz.
  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Sicherheitslücke in ImageMagick
    Die Bildbearbeitungssoftware ImageMagick liegt nicht nur vielen Linux-Distributionen bei, sie kommt auch auf Webservern zum Einsatz. Jetzt wurde eine dramatische Sicherheitslücke entdeckt. Ein Update von ImageMagick steht jedoch noch aus.
  • Profi-Funktionen von ImageMagick nutzen
    Vom Konvertieren von Negativen bis hin zum PDF fürs Fotobuch – mit ImageMagick und ein paar Zeilen Shell-Code meistern Sie jede Aufgaben ruck, zuck auf der Kommandozeile.
Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Broadcom Adapter 802.11n nachinstallieren
Thomas Mengel, 31.10.2017 20:06, 2 Antworten
Hallo, kann man nachträglich auf einer Liveversion, MX Linux auf einem USB-Stick, nachträglich...
RUN fsck Manually / Stromausfall
Arno Krug, 29.10.2017 12:51, 1 Antworten
Hallo, nach Absturz des Rechners aufgrund fehlendem Stroms startet Linux nicht mehr wie gewohn...
source.list öffnet sich nicht
sebastian reimann, 27.10.2017 09:32, 2 Antworten
hallo Zusammen Ich habe das problem Das ich meine source.list nicht öffnen kann weiß vlt jemman...
Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 6 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...