Hilfsprogramme

Die anderen Programme aus der ExactImage-Suite sind speziellerer Natur. So wertet Bardecode gescannte Barcodes automatisch aus, was auch bei relativ schlechten Bildern noch gelingt. E2mtiff fasst mehrere Bilder zu einer mehrseitigen TIFF-Datei zusammen:

$ e2mtiff x1.jpg x2.png ... -o out.tiff

Mehrseitige TIFFs sind unter Linux weder besonders verbreitet noch sonderlich beliebt. Allerdings kann Gimp sie durchaus öffnen und auch bearbeiten. Abbildung 1 zeigt, wie sich ein mehrseitiges TIFF in Gimp beim Laden bemerkbar macht. Sie können nun die als Ebenen vorliegenden Seiten einzeln bearbeiten (Abbildung 2) oder – durch das Ziehen mit der Maus auf den Werkzeugkasten – in neue Bilder umwandeln.

Abb. 1: Gimp fragt beim Öffnen von mehrseitigen TIFFs, welche Seiten er als Ebenen öffnen soll.
Abb. 2: Anschließend finden Sie die Seiten als normale Ebenen im Ebenendock.

Optimize2bw bereitet gescannte Seiten so auf, dass sie sich optimal für das anschließende Bearbeiten mittels OCR eignen. Dabei erkennt Empty-page leere Seiten, sodass diese sich vorab aussortieren lassen.

Bei Hocr2pdf schließlich handelt es sich um das vermutlich am meisten verwendete Tool aus der ExactImage-Programmsuite.

Durchsuchbare PDFs

Mit Hocr2pdf erzeugen Sie bei Bedarf durchsuchbare PDFs aus gescannten Vorlagen. Diese PDFs bestehen im Prinzip aus zwei Ebenen: Eine nimmt die gescannte Grafik auf, eine zweite – oft unsichtbar darunterliegende – den aus der OCR-Bearbeitung resultierenden Text. In dieser zweiten Ebene erfolgt die Suche, sie sollte daher möglichst gut mit der grafischen Ebene übereinstimmen.

Eine ganze Reihe von Programmen nutzen Hocr2pdf, um solche "Sandwich"-PDFs zu erzeugen. Dazu zählen beispielsweise Pdfocr, das weitestgehend automatisch arbeitende Pdfsandwich [4], Xsane2sandwich [5] sowie Djvu2pdf [6], das aus Djvu-Daten eine hOCR-Datei extrahiert und ein durchsuchbares PDF erzeugt. Wie gut das klappt, zeigt Abbildung 3, in der die blauen Kästchen die erkannten Worte markieren.

Abb. 3: Ein mittels Hocr2pdf erzeugtes Sandwich-PDF.

Die Anwendung von Hocr2pdf gestaltet sich relativ einfach, wobei es die hOCR-Daten über den Standardeingabekanal erwartet (Listing 4, erste Zeile). Die hOCR-Dateien erzeugen Sie wahlweise mit Cuneiform oder auch mit Tesseract und bearbeiten sie gegebenenfalls mit den hOCR-Tools [7] nach. Falls die Ausrichtung des Texts nicht zum gescannten Bild passt, kann Hocr2pdf dies mit der Option -s (--sloppy-text) anpassen (Listing 4, zweite Zeile).

$ hocr2pdf -i scan.tiff -o out.pdf < Text.hocr
$ hocr2pdf -i scan.tiff -s -o out.pdf < Text.hocr

Hocr2pdf kennt ansonsten nur noch wenige weitere Optionen, alles andere erfolgt automatisch. Der Schalter -i definiert die grafische Eingabedatei, -o die fertige Ausgabedatei. Durch -n lässt sich das Einbinden der grafischen Ebene verhindern, mit -r die Auflösung dafür einstellen. Als Vorgabe nutzt Hocr2pdf hier 300 dpi.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Zügiger Wechsel
    Manchmal muss man einen ganzen Schwung Bilder am Stück konvertieren. Hier macht ExactImage dem traditionellen ImageMagick Konkurrenz.
  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Sicherheitslücke in ImageMagick
    Die Bildbearbeitungssoftware ImageMagick liegt nicht nur vielen Linux-Distributionen bei, sie kommt auch auf Webservern zum Einsatz. Jetzt wurde eine dramatische Sicherheitslücke entdeckt. Ein Update von ImageMagick steht jedoch noch aus.
  • Profi-Funktionen von ImageMagick nutzen
    Vom Konvertieren von Negativen bis hin zum PDF fürs Fotobuch – mit ImageMagick und ein paar Zeilen Shell-Code meistern Sie jede Aufgaben ruck, zuck auf der Kommandozeile.
Kommentare

Infos zur Publikation

LU 01/2018: FLINKE BROWSER

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Linux Mint als Zweitsystem
Wolfgang Robert Luhn, 13.01.2018 19:28, 3 Antworten
Wer kann mir helfen??? Habe einen neuen Laptop mit vorinstaliertem Windows 10 gekauft. Möchte g...
externe soundkarte Kaufempfehlung
lara grafstr , 13.01.2018 10:20, 3 Antworten
Hallo Ich bin auf Suche nach einer externen soundkarte.. Max 150 Euro Die Wiedergabe is...
Prozessor-Sicherheitslücke Meltdown und Spectre
Wimpy *, 06.01.2018 10:45, 2 Antworten
Ich habe heute ein Sicherheitsupdate "ucode-intel" für openSuse 42.3 erhalten. Ist damit das Prob...
LENOVO ideapad320 Touchpad Linux Mint 18
Peter Deppen, 23.12.2017 16:49, 3 Antworten
Hallo, bin Linux Anfänger und habe das Problem, dass das Touchpad auf dem LENOVO ideapad320 mit L...
PClinuxOS
Günter Beckmann, 20.12.2017 09:51, 1 Antworten
Hi, LUC, hat jemand von Euch Erfahrung mit dem in Heft 12/2017 vorgestelletn PClinuxOS? Ich...