Fazit

Die Suche in Postscript- und PDF-Dokumenten klappt nur dann einigermaßen, wenn die Daten als einzelne Buchstaben im Dokument abgespeichert sind. Besteht das Dokument stattdessen aus Bild, wird es wesentlich komplexer. Im Alltag entstehen solche Dokumente häufig, etwa bei gescannten Daten und bei der Verwendung digitaler Faxgeräte. Auf den ersten Blick tendiert man dazu, diesen Fakt zu übersehen, weil der Mensch das Dokument problemlos lesen kann. Eine nachfolgende automatische Indexierung und Klassifikation klappt indes nur dann, wenn eine Texterkennung mit einer OCR-Software zu einem brauchbaren Ergebnis führt – das jedoch ist ein Kapitel für sich. 

Danksagung

Der Autor bedankt sich bei Thomas Winde und Wolfram Eifler für deren kritische Anmerkungen und Kommentare im Vorfeld dieses Artikels.

Infos

[1] PDF/A-Technik: http://www.pdfa.org/2011/09/pdfa-%E2%80%93-ein-blick-auf-die-technische-seite/?lang=de

[2] Reguläre Ausdrücke: Frank Hofmann, "Schnipseljagd", LU 09/2011, S. 84, http://www.linux-community.de/24091

[3] OCR unter Linux: Andreas Gohr, "Linux OCR Software Comparison", http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison

[4] DVI: http://de.wikipedia.org/wiki/Device_independent_file_format

[5] Epdfview und Co.: Frank Hofmann, "Angeschubst" LU 05/2010, S. 90, http://www.linux-community.de/20051

[6] Vim-Basics: Frank Hofmann, Thomas Winde, "Vielseitig", LU 10/2011, S. 32, http://www.linux-community.de/24065

[7] Liste freier PDF-Betrachter: http://www.pdfreaders.org

[8] Pdfgrep: http://pdfgrep.sourceforge.net

[9] Frank Hofmann, "Scheibchenweise", LU 12/2009, S. 88, http://www.linux-community.de/19635

[10] Stackbasierte Sprachen: http://de.wikipedia.org/wiki/Stapelspeicher#Stapelorientierte_Sprachen

[11] Ghostscript: http://www.ghostscript.com

[12] PS Language Cookbook: Adobe Systems Incorporated, "PostScript Language", Addison Wesley 1985

[13] PDF-Referenz: Adobe Systems Incorporated, "PDF Reference, 3rd Edition", Addison Wesley 2001, ISBN 9780-201-758399

[14] Pdfinfo: http://linuxcommand.org/man_pages/pdfinfo1.html

[15] Pdftk: http://www.accesspdf.com/pdftk/

[16] PDF-Metadaten: Frank Hofmann, "Innere Werte", LU 02/2010, S. 90, http://www.linux-community.de/20357

Der Autor

Frank Hofmann hat Informatik an der TU Chemnitz studiert. Derzeit arbeitet er in Berlin im Open-Source-Expertennetzwerk Büro 2.0 als Dienstleister mit Spezialisierung auf Druck und Satz. Er ist Mitglied der Linux User Group Potsdam (upLUG).

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Suche in komprimierten Dateien und Archiven
    Über die Kommandozeile flink in komprimierten Dateien und Archiven zu suchen, spart viel Zeit. Die richtigen Tools dazu bringt praktisch jedes Linux-System von Haus aus mit.
  • Angetestet
    Markdown-Editor CuteMarkEd 0.11.2, Konsolen-Bildbetrachter Fim 0.5, Suchwerkzeug Pdfgrep 1.4.1, CSV-Datei-Viewer Tabview 1.4.2.
  • Schöner finden
    Im Ordner "Bank" liegen die Kontoauszüge der letzten drei Jahre, und Sie fragen sich, wann Sie im örtlichen Elektronikmarkt den neuen Monitor gekauft haben. Über manuelles Öffnen der Dateien im PDF-Betrachter und dessen Suchfunktion finden Sie das in wenigen Minuten heraus, trotzdem ist die Vorgehensweise umständlich. Mit "pdfgrep" erhalten Sie die Antwort sofort. Einmal dabei, bietet es sich auch an, LibreOffice-Dokumente zu durchsuchen.
  • Bild und Druck
    Durch seine reiche Ausstattung an Werkzeugen eignet sich Linux wie kaum ein anderes Betriebssystem zum Umgang mit Postscript- und PDF-Dokumenten. Wir stellen die besten Tools zur Anzeige und Konvertierung vor.
  • Nicht nur zum Drucken
    PDF und PostScript sind in der Linux-Welt zwei wichtige Dateiformate. In diesem Artikel erfahren Sie, wie Sie diese Formate erzeugen, betrachten, konvertieren und ausdrucken.
Kommentare
Suchen in Farbe
Markus Berlin, Freitag, 20. Januar 2012 09:37:48
Ein/Ausklappen

Vielen Dank für den schönen Artikel! Folgeartikel zu OCR oder auch zu genaueren PDF/PS-Innereien fände ich großartig. :)

Nur zwei Anmerkungen:

(1)

$ for datei in $(ls *.pdf); do pdftotext $datei - | grep --color Suchstring ; done

welchen Vorteil hat das gegenüber:

$ for datei in *.pdf; do pdftotext $datei - | grep --color Suchstring ; done

(2)

"""Da Less die farbliche Hervorhebung der Suchtreffer nicht übernimmt, können Sie dabei die grep-Option --color im Aufruf streichen."""

less übernimmt die Hervorhebung, wenn man ihm die Option "-R" gönnt.

Viele Grüße



Bewertung: 247 Punkte bei 94 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 08/2017: VIRTUALISIERUNG

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

Bash awk Verständnis-Frage
Josef Federl, 22.07.2017 17:46, 2 Antworten
#!/bin/bash # Skriptdateiname = test.sh spaltennummer=10 wert=zehner awk '{ $'$spaltennummer'...
Bash - verschachtelte Variablenersetzung, das geht doch eleganter als meine Lösung?
Josef Federl, 18.07.2017 20:24, 2 Antworten
#!/bin/bash #Ziel des Skriptes wird sein die ID zu extrahieren hier nur als Consolentest: root@...
Speicherplatzfreigabe mit "sudo apt-get clean" scheitert
Siegfried Böttcher, 16.07.2017 21:16, 3 Antworten
Speicherplatzfreigabe mit "sudo apt-get clean" scheitert, weil aus mir unerfindlichen Gründen im...
Möchte Zattoo vom PC am Fernsehgerät sehen können
Ilona Nikoui, 15.07.2017 18:25, 3 Antworten
Hallo, ich habe mein Fernsehgerät, ein LG 26LE3300 mit dem PC verbunden per HDMI Kabel, wie empfo...
TUXEDO und Hardwareauswahl , fragwürdig / Kritik
Josef Federl, 11.07.2017 12:44, 7 Antworten
Auf tuxedocomputers.com steht: "....Aber wir können auch Linux und das so, dass "einfach" alles...