Fazit

Die Suche in Postscript- und PDF-Dokumenten klappt nur dann einigermaßen, wenn die Daten als einzelne Buchstaben im Dokument abgespeichert sind. Besteht das Dokument stattdessen aus Bild, wird es wesentlich komplexer. Im Alltag entstehen solche Dokumente häufig, etwa bei gescannten Daten und bei der Verwendung digitaler Faxgeräte. Auf den ersten Blick tendiert man dazu, diesen Fakt zu übersehen, weil der Mensch das Dokument problemlos lesen kann. Eine nachfolgende automatische Indexierung und Klassifikation klappt indes nur dann, wenn eine Texterkennung mit einer OCR-Software zu einem brauchbaren Ergebnis führt – das jedoch ist ein Kapitel für sich. 

Danksagung

Der Autor bedankt sich bei Thomas Winde und Wolfram Eifler für deren kritische Anmerkungen und Kommentare im Vorfeld dieses Artikels.

Infos

[1] PDF/A-Technik: http://www.pdfa.org/2011/09/pdfa-%E2%80%93-ein-blick-auf-die-technische-seite/?lang=de

[2] Reguläre Ausdrücke: Frank Hofmann, "Schnipseljagd", LU 09/2011, S. 84, http://www.linux-community.de/24091

[3] OCR unter Linux: Andreas Gohr, "Linux OCR Software Comparison", http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison

[4] DVI: http://de.wikipedia.org/wiki/Device_independent_file_format

[5] Epdfview und Co.: Frank Hofmann, "Angeschubst" LU 05/2010, S. 90, http://www.linux-community.de/20051

[6] Vim-Basics: Frank Hofmann, Thomas Winde, "Vielseitig", LU 10/2011, S. 32, http://www.linux-community.de/24065

[7] Liste freier PDF-Betrachter: http://www.pdfreaders.org

[8] Pdfgrep: http://pdfgrep.sourceforge.net

[9] Frank Hofmann, "Scheibchenweise", LU 12/2009, S. 88, http://www.linux-community.de/19635

[10] Stackbasierte Sprachen: http://de.wikipedia.org/wiki/Stapelspeicher#Stapelorientierte_Sprachen

[11] Ghostscript: http://www.ghostscript.com

[12] PS Language Cookbook: Adobe Systems Incorporated, "PostScript Language", Addison Wesley 1985

[13] PDF-Referenz: Adobe Systems Incorporated, "PDF Reference, 3rd Edition", Addison Wesley 2001, ISBN 9780-201-758399

[14] Pdfinfo: http://linuxcommand.org/man_pages/pdfinfo1.html

[15] Pdftk: http://www.accesspdf.com/pdftk/

[16] PDF-Metadaten: Frank Hofmann, "Innere Werte", LU 02/2010, S. 90, http://www.linux-community.de/20357

Der Autor

Frank Hofmann hat Informatik an der TU Chemnitz studiert. Derzeit arbeitet er in Berlin im Open-Source-Expertennetzwerk Büro 2.0 als Dienstleister mit Spezialisierung auf Druck und Satz. Er ist Mitglied der Linux User Group Potsdam (upLUG).

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Suche in komprimierten Dateien und Archiven
    Über die Kommandozeile flink in komprimierten Dateien und Archiven zu suchen, spart viel Zeit. Die richtigen Tools dazu bringt praktisch jedes Linux-System von Haus aus mit.
  • Bild und Druck
    Durch seine reiche Ausstattung an Werkzeugen eignet sich Linux wie kaum ein anderes Betriebssystem zum Umgang mit Postscript- und PDF-Dokumenten. Wir stellen die besten Tools zur Anzeige und Konvertierung vor.
  • Nicht nur zum Drucken
    PDF und PostScript sind in der Linux-Welt zwei wichtige Dateiformate. In diesem Artikel erfahren Sie, wie Sie diese Formate erzeugen, betrachten, konvertieren und ausdrucken.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Know-how für die Kommandozeile
    Erfahrene Linux-Nutzer schwören auf flexible Kommandozeilentools, mit denen sie manche Aufgabe schneller bewältigen als in grafischen Programmen. Wir stellen interessante Anwendungen und Aufrufparameter vor, um auch Einsteiger zu einem Ausflug in die Shell zu ermutigen.
Kommentare
Suchen in Farbe
Markus Berlin, Freitag, 20. Januar 2012 09:37:48
Ein/Ausklappen

Vielen Dank für den schönen Artikel! Folgeartikel zu OCR oder auch zu genaueren PDF/PS-Innereien fände ich großartig. :)

Nur zwei Anmerkungen:

(1)

$ for datei in $(ls *.pdf); do pdftotext $datei - | grep --color Suchstring ; done

welchen Vorteil hat das gegenüber:

$ for datei in *.pdf; do pdftotext $datei - | grep --color Suchstring ; done

(2)

"""Da Less die farbliche Hervorhebung der Suchtreffer nicht übernimmt, können Sie dabei die grep-Option --color im Aufruf streichen."""

less übernimmt die Hervorhebung, wenn man ihm die Option "-R" gönnt.

Viele Grüße



Bewertung: 164 Punkte bei 18 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...