AA_PO-23408_MattTrommer-123RF.jpg

© MattTrommer, 123RF

Unterschiede in PDF-Dokumenten finden

Spurensuche

Fehlt das richtige Werkzeug, ist es recht mühselig, Unterschiede in PDF-Dokumenten aufzuspüren. Wir stellen fünf pfiffige Tools vor, die dabei helfen.

Als Datenformat zum Austausch über unterschiedliche Plattformen und Betriebssysteme hinweg ist das Portable Document Format (PDF) mittlerweile unverzichtbar. Das gilt insbesondere für Dokumente, die der Empfänger zwar lesen, aber nicht so ohne Weiteres verändern können soll.

Wir gehen in diesem Beitrag der Frage nach, wie man feststellt, ob zwei PDF-Dokumente identisch sind sowie, falls nicht, welche Unterschiede in Bezug auf den Inhalt und das Aussehen bestehen. Dazu sehen wir uns die fünf Programme Md5sum [1], Pdftotext [2], Pdfdiff [3], Comparepdf [4] und Diffpdf [5] genauer an, die sich allesamt in den Repositories der gängigen Distributionen finden.

Dateien vergleichen

Md5sum zählt zum Grundstock der Programme, die es auf jedem Linux-System gibt. In Debian GNU/Linux und Ubuntu finden Sie es im Paket coreutils [6]. Md5sum primärer Zweck besteht darin, 128 Bit lange Hash-Werte auf der Basis des MD5-Verfahrens zu erzeugen. Ein solcher Hash-Wert entspricht vereinfacht gesprochen dem digitalen Fingerabdruck einer Datenmenge.

Diese Idee machen Sie sich im vorliegenden Fall zunutze und erzeugen jeweils einen Hash-Wert für die beiden PDF-Dokumente. Vergleichen Sie danach beide Ergebnisse, sehen Sie auf einen Blick, ob die Dokumente identisch sind: Falls ja, stimmen die beiden Hash-Werte überein, so wie in Listing 1 Debian-20150207.pdf und Debian-20150209.pdf.

Listing 1

$ md5sum Debian-20150207.pdf Debian-20150208.pdf Debian-20150209.pdf
6d997a79b970eb8526f0d1662f740b45  Debian-20150207.pdf
5f91ffc412d95e3436faceb2e772e0e1  Debian-20150208.pdf
6d997a79b970eb8526f0d1662f740b45  Debian-20150209.pdf

Allerdings lässt sich mit dieser Methode nicht erkennen, worin sich Dateien im Detail unterscheiden, also an welchen Stellen etwa in unserem Beispiel Debian-20150208.pdf von den beiden anderen Dokumenten abweicht. Beim Aufklären dieser Frage helfen im nächsten Schritt die beiden Werkzeuge Pdftotext und Kdiff3 weiter. Pdftotext findet sich in der Poppler-Bibliothek (Debian-Paket poppler-utils), während Kdiff3 [7] zur KDE-Suite gehört.

Mithilfe von Pdftotext extrahieren Sie aus einem PDF-Dokument dessen Inhalt – beziehungsweise streng genommen lediglich den Text, grafische Elemente bleiben dabei unberücksichtigt [8]. Den Namen der Ausgabedatei entlehnt Pdftotext vom ursprünglichen Dateinamen und ergänzt diesen durch die Buchstabenfolge .txt. Beide Extrakte vergleichen Sie anschließend mittels Kdiff3, das die inhaltlichen Unterschiede übersichtlich nebeneinander darstellt und sie zudem farblich hervorhebt. Listing 2 fasst das Vorgehen mit allen drei Aufrufen zusammen.

Listing 2

$ pdftotext file1.pdf
$ pdftotext file2.pdf
$ kdiff3 file1.txt file2.txt

Nachdem Sie Kdiff3 mit den beiden zu vergleichenden Textdateien als Parameter aufgerufen haben, sehen Sie die Inhalte, die nur in der ersten Datei vorkommen, in grüner Schrift, und die Inhalte, die lediglich in der zweiten Datei vorkommen, in blauer Schrift. Identische Textbestandteile erscheinen in schwarzer Schrift auf weißem Hintergrund (Abbildung 1). Als recht nützlich erweist sich zudem der rote Balken am rechten Fensterrand: Er identifiziert die Abschnitte, in denen sich Unterschiede finden; mit einem Klick darauf springen Sie an die entsprechende Textposition.

Abbildung 1: Ein Beispiel für den direkten Vergleich zweier Textdateien in Kdiff3.

Erscheinen Ihnen die drei Aufrufe aus Listing 2 zu umständlich, bieten sich Pdfdiff und Comparepdf als mögliche Kandidaten der Wahl an – beide fassen diese Einzelschritte zusammen. Pdfdiff verwendet zum Gegenüberstellen der Unterschiede das erste Diff-Programm, das es auf Ihrem System entdeckt, je nach Distribution und Desktop etwa Kdiff3 oder auch Meld [9].

Diffpdf

Bei Diffpdf (Debian-Paket diffpdf) handelt es sich um die grafische Variante von Comparepdf, die aus der Feder desselben Entwicklerteams stammt. Das Tool setzt auf die Grafikbibliothek Qt sowie auf Poppler auf und verfügt auf den ersten Blick über eine überschaubare und recht durchdachte Bedienoberfläche (Abbildung 2).

Abbildung 2: Diffpdf, die grafische Variante von Comparepdf, bietet eine durchdachte Bedienoberfläche.

Die linke und die mittlere Spalte nehmen die beiden Dokumente ein, die Sie gegenüberstellen. Diffpdf hinterlegt alle Textfragmente farblich, die sich im Dokument verändert haben beziehungsweise an eine andere Stelle auf der gleichen Seite geschoben wurden. Dabei vergleicht es Seite für Seite. Weiterhin sehen Sie am linken Rand des Dokuments einen farbigen Balken, der die Fundstelle zusätzlich markiert. Dessen Deckkraft, Dicke und Farbe stellen Sie über den Knopf Optionen in der rechten Spalte ganz nach Ihrem Geschmack ein.

Über der Seitenansicht befinden sich zwei Knöpfe zur Dateiauswahl. Über das Eingabefeld daneben legen Sie fest, welche Seiten Diffpdf in den Vergleich mit einbezieht (in Abbildung 2 sind es die Seiten von 1 bis 460). Weisen die beiden Dateien eine unterschiedliche Seitenzahl auf, verwendet Diffpdf üblicherweise zunächst den kleineren Wert als obere Grenze. Wie viele Seiten sich unterscheiden, sehen Sie anhand des Ausgabefelds in der rechten Spalte – in Abbildung 2 sind es 200 von 460 miteinander verglichene Seiten.

Die rechte Spalte der Bedienoberfläche beinhaltet weitere Knöpfe zur Navigation. Zur Auswahl stehen als Vergleichsmodus Wort-für-Wort (Standardfall), Zeichen-für-Zeichen und ein visueller Abgleich. Letzterer führt zu einer optischen Prüfung und bezieht auch Abbildungen mit ein: Damit ermitteln Sie, ob sich eingebundene Bilddaten verändert haben. Über den Knopf Ansicht wechseln Sie zwischen den Seiten mit den Unterschieden hin und her. Die Einträge benennen dabei die Seitennummer im jeweiligen Dokument sowie die Nummer der Fundstelle. Zum Vor- und Zurückblättern dienen auch die beiden Knöpfe mit den Pfeilen darauf.

Mithilfe des Eingabefelds Vergrößerung regeln Sie die Darstellung der verglichenen Seiten. Das hilft Ihnen insbesondere bei kleineren Bildschirmen dabei, eine Gegenüberstellung "auf einen Blick" zu bekommen. Über die sechs Knöpfe in der unteren, rechten Spalte lösen Sie den Dokumentenvergleich aus, legen die Optionen zur Darstellung fest, zeigen die Informationen zum Programm an, öffnen die integrierte Hilfe oder beenden Diffpdf.

Der Knopf Speichern unter verhilft Ihnen zu einer praktischen Zusammenfassung der Änderungen (Abbildung 3). Das resultierende Ausgabedokument enthält alle unterschiedlichen Seiten samt Hervorhebung. Damit entfällt der Schritt, diese einzeln und mühsam selbst zusammenzusuchen.

Abbildung 3: Diffpdf fasst alle gefundenen Unterschiede in einem Report zusammen.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Der kleine Unterschied
    Manchmal macht nur ein Zeichen den Unterschied zwischen zwei Dateien aus. Statt mühsam von Hand zu vergleichen hilft hier Beediff schnell und zuverlässig, den Unterschied zu finden.
  • Textdateien mit "diff" und "wdiff" vergleichen
    Mehrere Versionen derselben Datei werfen die Frage auf, ob diese sich unterscheiden – zumindest für Textdateien bringt die Shell alle Tools mit, die Sie brauchen, um diese Frage zu beantworten.
  • Vorher und nachher
    Wer Textdateien, wie etwa Konfigurations-, Programmquellcode- oder Skriptdateien, regelmäßig überarbeitet, sollte eine Versionsverwaltung nutzen, um auch auf alte Versionen zurückgreifen zu können: Dann bleiben Fehler beim Überarbeiten folgenlos.
  • Wie soll Okular Restriktionen in PDF-Dokumenten handhaben?
    Aus den meisten PDF-Dateien lassen sich Textschnipsel und Bilder problemlos herauskopieren. Doch wie soll sich eine freie Software verhalten, wenn der Autor des Dokuments das nicht möchte?
  • Scheibchenweise
    Der fünfte Teil der Postscript/PDF-Reihe legt den Fokus auf Tipps und Tricks, die den Umgang mit Postscript und PDF im Alltag leichter machen.
Kommentare

Infos zur Publikation

Lu07/2016: GIMP FÜR PROFIS

Digitale Ausgabe: Preis € 5,99
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Aktuelle Fragen

Mit Firewire Videos improtieren?
Werner Hahn, 09.06.2016 11:06, 5 Antworten
Ich besitze den Camcorder Panasonic NV-GS330, bei dem die Videos in guter Qualität nur über den 4...
lidl internetstick für linux mint
rolf meyer, 04.06.2016 14:17, 3 Antworten
hallo zusammen ich benötige eure hilfe habe einen lidl-internetstick möchte ihn auf linux mint i...
thema ändern
a b, 29.05.2016 16:34, 0 Antworten
Hallo Linuxer zuerst alle eine schönen Sonntag, bevor ich meine Frage stelle. Ich habe Ubuntu 1...
Ideenwettbewerb
G.-P. Möller, 28.05.2016 10:57, 0 Antworten
Liebe User, im Rahmen eines großen Forschungsprojekts am Lehrstuhl für Technologie- und Innova...
Welche Drucker sind Linux-mint kompatibel?
Johannes Nacke, 20.05.2016 07:32, 6 Antworten
Hallo Ihr Lieben, ich bitte um mitteilung welche Drucker Kompatibel sind mit Linux-Mint. LG Joh...