Fazit

Die Suche in Postscript- und PDF-Dokumenten klappt nur dann einigermaßen, wenn die Daten als einzelne Buchstaben im Dokument abgespeichert sind. Besteht das Dokument stattdessen aus Bild, wird es wesentlich komplexer. Im Alltag entstehen solche Dokumente häufig, etwa bei gescannten Daten und bei der Verwendung digitaler Faxgeräte. Auf den ersten Blick tendiert man dazu, diesen Fakt zu übersehen, weil der Mensch das Dokument problemlos lesen kann. Eine nachfolgende automatische Indexierung und Klassifikation klappt indes nur dann, wenn eine Texterkennung mit einer OCR-Software zu einem brauchbaren Ergebnis führt – das jedoch ist ein Kapitel für sich. 

Danksagung

Der Autor bedankt sich bei Thomas Winde und Wolfram Eifler für deren kritische Anmerkungen und Kommentare im Vorfeld dieses Artikels.

Infos

[1] PDF/A-Technik: http://www.pdfa.org/2011/09/pdfa-%E2%80%93-ein-blick-auf-die-technische-seite/?lang=de

[2] Reguläre Ausdrücke: Frank Hofmann, "Schnipseljagd", LU 09/2011, S. 84, http://www.linux-community.de/24091

[3] OCR unter Linux: Andreas Gohr, "Linux OCR Software Comparison", http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison

[4] DVI: http://de.wikipedia.org/wiki/Device_independent_file_format

[5] Epdfview und Co.: Frank Hofmann, "Angeschubst" LU 05/2010, S. 90, http://www.linux-community.de/20051

[6] Vim-Basics: Frank Hofmann, Thomas Winde, "Vielseitig", LU 10/2011, S. 32, http://www.linux-community.de/24065

[7] Liste freier PDF-Betrachter: http://www.pdfreaders.org

[8] Pdfgrep: http://pdfgrep.sourceforge.net

[9] Frank Hofmann, "Scheibchenweise", LU 12/2009, S. 88, http://www.linux-community.de/19635

[10] Stackbasierte Sprachen: http://de.wikipedia.org/wiki/Stapelspeicher#Stapelorientierte_Sprachen

[11] Ghostscript: http://www.ghostscript.com

[12] PS Language Cookbook: Adobe Systems Incorporated, "PostScript Language", Addison Wesley 1985

[13] PDF-Referenz: Adobe Systems Incorporated, "PDF Reference, 3rd Edition", Addison Wesley 2001, ISBN 9780-201-758399

[14] Pdfinfo: http://linuxcommand.org/man_pages/pdfinfo1.html

[15] Pdftk: http://www.accesspdf.com/pdftk/

[16] PDF-Metadaten: Frank Hofmann, "Innere Werte", LU 02/2010, S. 90, http://www.linux-community.de/20357

Der Autor

Frank Hofmann hat Informatik an der TU Chemnitz studiert. Derzeit arbeitet er in Berlin im Open-Source-Expertennetzwerk Büro 2.0 als Dienstleister mit Spezialisierung auf Druck und Satz. Er ist Mitglied der Linux User Group Potsdam (upLUG).

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Suche in komprimierten Dateien und Archiven
    Über die Kommandozeile flink in komprimierten Dateien und Archiven zu suchen, spart viel Zeit. Die richtigen Tools dazu bringt praktisch jedes Linux-System von Haus aus mit.
  • Bild und Druck
    Durch seine reiche Ausstattung an Werkzeugen eignet sich Linux wie kaum ein anderes Betriebssystem zum Umgang mit Postscript- und PDF-Dokumenten. Wir stellen die besten Tools zur Anzeige und Konvertierung vor.
  • Nicht nur zum Drucken
    PDF und PostScript sind in der Linux-Welt zwei wichtige Dateiformate. In diesem Artikel erfahren Sie, wie Sie diese Formate erzeugen, betrachten, konvertieren und ausdrucken.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Know-how für die Kommandozeile
    Erfahrene Linux-Nutzer schwören auf flexible Kommandozeilentools, mit denen sie manche Aufgabe schneller bewältigen als in grafischen Programmen. Wir stellen interessante Anwendungen und Aufrufparameter vor, um auch Einsteiger zu einem Ausflug in die Shell zu ermutigen.
Kommentare
Suchen in Farbe
Markus Berlin, Freitag, 20. Januar 2012 09:37:48
Ein/Ausklappen

Vielen Dank für den schönen Artikel! Folgeartikel zu OCR oder auch zu genaueren PDF/PS-Innereien fände ich großartig. :)

Nur zwei Anmerkungen:

(1)

$ for datei in $(ls *.pdf); do pdftotext $datei - | grep --color Suchstring ; done

welchen Vorteil hat das gegenüber:

$ for datei in *.pdf; do pdftotext $datei - | grep --color Suchstring ; done

(2)

"""Da Less die farbliche Hervorhebung der Suchtreffer nicht übernimmt, können Sie dabei die grep-Option --color im Aufruf streichen."""

less übernimmt die Hervorhebung, wenn man ihm die Option "-R" gönnt.

Viele Grüße



Bewertung: 191 Punkte bei 36 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 09/2015: Paketverwaltung

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 2 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Scanner EPSON Perfection V 300 photo und VueScan
Roland Welcker, 19.08.2015 09:04, 1 Antworten
Verehrte Linux-Freunde, ich habe VueScan in /usr/local/src/vuex_3295/VueScan installiert, dazu d...
Empfehlung gesucht Welche Dist als Wirt für VM ?
Roland Fischer, 31.07.2015 20:53, 2 Antworten
Wer kann mir Empfehlungen geben welche Distribution gut geeignet ist als Wirt für eine VM für Win...
Plugins bei OPERA - Linux Mint 17.1
Christoph-J. Walter, 23.07.2015 08:32, 3 Antworten
Beim Versuch Video-Sequenzen an zu schauen kommt die Meldung -Plug-ins und Shockwave abgestürzt-....
Wird Windows 10 update/upgrade mein Grub zerstören ?
daniel s, 22.07.2015 08:31, 9 Antworten
oder rührt Windows den Bootloader nicht an? das ist auch alles was Google mir nicht beantw...
Z FUER Y UND ANDERE EINGABEFEHLER AUF DER TASTATUR
heide marie voigt, 10.07.2015 13:53, 2 Antworten
BISHER konnte ich fehlerfrei schreiben ... nun ist einiges drucheinander geraten ... ich war bei...