Klicken statt tippen

Möchten Sie mehr Kontrolle über die Texterkennung ausüben, greifen die bisher beschriebenen Kommandozeilenwerkzeuge zu kurz. Hier setzt das Programm OCRFeeder [5] an: Es übernimmt die Layoutanalyse und greift für die Texterkennung auf unterschiedliche OCR-Engines zurück. Zu den unterstützten Engines gehört neben Cuneiform, GOCR oder Ocrad auch Tesseract. Die Wahl des OCR-Werkzeugs treffen Sie im Programm unter Werkzeuge | OCR-Anwendungen.

Alle gängigen Distributionen führen OCRFeeder in ihren Paketquellen. Nach der Installation der Anwendung bietet Ihnen das Programm die Wahl, ein neues Dokument zu scannen oder ein bereits eingelesenes Dokument als Grafik oder PDF zu öffnen. Um Scan-Fehler zu korrigieren und den Text zu begradigen, greift auch OCRFeeder wieder auf Unpaper zurück. Dessen Funktionen rufen Sie über Werkzeuge | Unpaper sowie Werkzeuge | Bilder begradigen auf.

Anschließend starten Sie die Texterkennung über den Menüpunkt Dokument | Dokument erkennen. Nach Abschluss der Aktion erscheint der erkannte Text in einem Editorfenster. Dort bietet OCRFeeder die Möglichkeit, Korrekturen vorzunehmen und den Text sogar zu formatieren (Abbildung 2). Das Ergebnis lässt sich dann nicht nur als durchsuchbare PDF-Datei abspeichern: Die Export-Funktion unterstützt neben blanken Textdateien und HTML auch die Ausgabe als ODT, um das Dokument in LibreOffice weiterzubearbeiten. Die freie Bürosuite wiederum eröffnet ihrerseits Exportmöglichkeiten nach RTF, DOC oder DOCX.

Abbildung 2: OCRFeeder kommt auch mit kompliziertem Layout problemlos zurecht, wie hier mit einem Artikel aus LinuxUser.

Metadaten

Ähnlich den EXIF-Daten von Digitalfotos enthalten auch PDF-Dokumente optionale Metadaten wie etwa Titel, Autor, Dokumentenart, Schlagwörter, Erstell- und Änderungsdatum sowie das Programm, mit dem die PDF-Datei erstellt wurde. Die Angaben lassen sich bei vielen PDF-Dokumentenbetrachtern einblenden (Abbildung 3). Zum Ändern oder Löschen der Metadaten bietet sich das PDF Toolkit [6] an. Sie installieren es in der Regel in Form des Pakets pdftk über die Paketverwaltung.

Abbildung 3: PDF-Dateien beinhalten oft zusätzliche Metadaten. Bildbetrachter wie hier Evince zeigen diese in den Eigenschaften an.

Die Metadaten zum Dokument scan.pdf lesen Sie mit den Kommandos aus Listing 5 aus (erste Zeile) beziehungsweise schreiben sie wieder zurück (zweite Zeile). Als Puffer dient dabei die Datei metadaten.txt. Listing 6 zeigt, wie eine solche Textdatei aussieht. Die Daten in den Zeilen 1 bis 24 enthalten Autor, Titel, Betreff, Schlagwörter, Erstelldatum, Änderungsdatum, das Programm, mit dem das ursprüngliche Dokument vor der Konvertierung ins PDF-Format erstellt wurde sowie das Programm, aus dem die PDF-Datei letztendlich hervorging.

Listing 5

$ pdftk scan.pdf dump_data output metadaten.txt
$ pdftk scan.pdf update_info metadaten.txt output scan_updated.pdf

Listing 6

InfoBegin
InfoKey: Author
InfoValue: Arthur Conan Doyle
InfoBegin
InfoKey: Title
InfoValue: Sherlock Holmes: Ein Skandal in Böhmen
InfoBegin
InfoKey: Subject
InfoValue: Scan
InfoBegin
InfoKey: Keywords
InfoValue: Krimi, Kurzgeschichte
InfoBegin
InfoKey: CreationDate
InfoValue: D:20160624090000+02'00'
InfoBegin
InfoKey: ModDate
InfoValue: D:20160624090000+02'00'
InfoBegin
InfoKey: Creator
InfoValue: ocrmypdf 4.1.2 / Tesseract OCR 3.03
InfoBegin
InfoKey: Producer
InfoValue: GPL Ghostscript 9.15
PdfID0: 4b6f80885c8cd32aa1ecfd450d73905b
PdfID1: 4b6f80885c8cd32aa1ecfd450d73905b
NumberOfPages: 42

Diese Informationen gliedern sich jeweils in Dreierblöcke: Auf den Beginn eines Metadaten-Blocks (Zeile 1) folgt die Art der Information (Zeile 2: Autor) und schließlich der eigentliche Wert (Zeile 3: Autorenname). In den Zeilen 25 und 26 stehen zwei Prüfsummen, die zur Identifizierung der Datei dienen. Die erste (Zeile 25) ist unveränderlich und stimmt mit der zweiten (Zeile 26) überein, wenn Sie das Dokument neu erstellen. Die zweite Prüfsumme entsteht jedesmal neu, sobald Sie das Dokument abändern. In Zeile 27 findet sich die Anzahl der Seiten.

Diese Daten in der metadaten.txt bearbeiten Sie mit einem beliebigen Texteditor. Zum Löschen einzelner Metadaten entfernen Sie den jeweiligen Wert von InfoValue, sodass ein leeres Feld übrigbleibt. Anschließend speichern Sie die Änderungen in der Textdatei ab und fügen die geänderten Metadaten über das zweite Kommando aus Listing 5 in die Datei scan.pdf ein. Dann speichern Sie das neue PDF unter dem Namen scan_updated.pdf.

Fallen solche Arbeiten des Öfteren an, automatisieren Sie die Arbeitsschritte mit einem einfachen Shell-Skript. Dazu speichern Sie den Inhalt von Listing 7 in einer Textdatei (etwa metadaten.sh). Dann machen Sie diese mit dem Befehl chmod +x metadaten.sh ausführbar oder setzen das Execute-Bit optional über die Dateieigenschaften in einem Dateimanager. Schließlich schieben Sie die Datei am besten nach ~/bin – das Verzeichnis liegt üblicherweise im Pfad, sodass die Shell das Kommando automatisch findet.

Listing 7

#!/bin/bash
pdftk $1 dump_data output $1.txt
xdg-open $1.txt
pdftk $1 update_info $1.txt output $1.updated.pdf
rm $1
rm $1.txt
mv $1.updated.pdf $1

Anschließend rufen Sie das "Programm" über metadaten.sh scan.pdf auf. Das Skript liest zunächst die Metadaten aus dem angegebenen PDF und speichert sie in der Textdatei scan.pdf.txt (Zeile 2). Die öffnet sich sodann automatisch im Texteditor (Zeile 3) – Xdg-open wählt dabei automatisch den in der Desktop-Umgebung definierten Editor aus.

Sobald Sie den Editor schließen, geht der Bearbeitungslauf weiter: Das Skript überträgt die geänderten Metadaten in eine neue PDF-Datei (Zeile 4) und räumt abschließend noch ein wenig auf: Das alte PDF und die Textdatei mit dem Metadaten löscht es (Zeile 5 und 6), die neue PDF-Datei erhält den Namen der alten (Zeile 7). Summa summarum erhalten Sie ein PDF-Dokument mit dem gleichen Namen wie die Ausgangsdatei, aber mit den geänderten Metadaten.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 8 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Ein Multifunktionsgerät für die Arbeit mit PDF-Dateien
    Zur Verarbeitung der Papierberge im Büro nutzen wir die moderne Bürotechnik. Wir müssen Dokumente abheften und entheften, kopieren, neu zusammenstellen, abstempeln, untersuchen oder klassifizieren. Bei der täglichen Arbeit mit elektronischen Dokumenten kann ein ganz spezielles Multifunktionsgerät verwendet werden: Pdftk ­ das PDF-Toolkit.
  • Bits statt Papier
    Mit einem digitalen Archiv sparen Sie Platz im Aktenschrank – aber Paperwork macht das Leben nicht unbedingt leichter.
  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Innere Werte
    Postscript- und PDF-Dokumente führen Zusatzdaten mit, die Aufschluss über das Dokument und dessen Autor geben. Diese Meta-Informationen lassen sich auch setzen und bearbeiten.
Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Broadcom Adapter 802.11n nachinstallieren
Thomas Mengel, 31.10.2017 20:06, 2 Antworten
Hallo, kann man nachträglich auf einer Liveversion, MX Linux auf einem USB-Stick, nachträglich...
RUN fsck Manually / Stromausfall
Arno Krug, 29.10.2017 12:51, 1 Antworten
Hallo, nach Absturz des Rechners aufgrund fehlendem Stroms startet Linux nicht mehr wie gewohn...
source.list öffnet sich nicht
sebastian reimann, 27.10.2017 09:32, 2 Antworten
hallo Zusammen Ich habe das problem Das ich meine source.list nicht öffnen kann weiß vlt jemman...
Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 6 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...