AA_x-ray_fernando-gregory-milan_123rf_15384875.jpg

© Fernando Gregory Milan, 123RF

Mit VeraPDF PDF-Dateien auf Konformität prüfen

Genau durchleuchtet

PDF-Dokumente gelten als erste Wahl, wenn es um das Archivieren geht. VeraPDF prüft, ob die Dateien dazu korrekt strukturiert sind.

PDF-Dokumente gehören seit Langem zum Kanon der Formate, mit denen Sie sich im Alltag konfrontiert sehen (siehe Kasten "Rückblick"). Es verbreitete sich zunehmend, und schon bald rückte es auf die vorderen Plätze, wenn es ums Archivieren von Dokumenten ging. Dabei spielt insbesondere eine Rolle, dass alle Daten, die zum Dokument gehören und die dieses referenziert, ebenfalls dauerhaft bereitstehen.

2005 entstand daher unter der Regie der Internationalen Standardisierungsorganisation (ISO) der dazugehörige PDF/A-1-Standard ISO 19005 [1]. Er regelt, welche Inhalte in einem solchen Dokument enthalten sein dürfen, um es zu ermöglichen, dieses dauerhaft zu archivieren. Grundlage dafür war PDF-Version 1.4.

2011 und 2012 folgten die Erweiterungen PDF/A-2 und PDF/A-3, die auf der PDF-Version 1.7 basieren und denen der ISO-Standard 32000-1 [2] zugrunde liegt. PDF/A-2 erlaubt etwa eine stärkere Kompression von JPEG-Bildern sowie transparente Ebenen, das Einbetten von OpenType-Schriften [3] sowie den Einsatz von digitalen Signaturen.

PDF/A-3 erweitert die bereits seit PDF/A-2 bestehenden Container dahingehend, dass Sie darin beliebige andere Dateiformate einpacken dürfen. Das ermöglicht es, neben XML-Dateien auch die Ausgangsdaten im Dokument zu speichern, aus denen Sie das PDF generiert haben. Auf diese Weise befinden sich die Quellen und das Ergebnis in derselben Datei.

Zu jeder Variante des Standards bestehen Abstufungen, die man mit einzelnen Buchstaben referenziert. Dabei steht "a" für die Barrierefreiheit [4] ("Accessibility"); "b" bezieht sich auf die visuelle Integrität, also die dauerhaft identische Anzeige des Dokuments.

Das Suffix "u" vereinfacht das Durchsuchen von Text innerhalb des Dokuments sowie das Kopieren desselben als Unicode-Text. Das betrifft sogar solche PDFs, die Sie mittels optischer Zeichenerkennung (OCR) eingescannt haben [5].

Rückblick

Das US-amerikanische Unternehmen Adobe entwickelte 1993 das Portable Document Format (PDF) mit dem Ziel, dass solche Dokumente auf allen Ausgabegeräten und Betriebssystemen identisch erscheinen sollten. Dieses Ziel wurde weitgehend erreicht. Dabei erwies es sich als hilfreich, dass Adobe die vollständige Definition des Formats öffentlich machte und sich die Entwickler und andere Firmen recht gut an den Standard hielten. Die Implementierungen setzen also die Vorgaben des Formats zumeist vollständig um.

Als Knackpunkt erweist sich jedoch nach wie vor die Verfügbarkeit der einzelnen Entwicklungsstufen auf unterschiedlichen Plattformen und Betriebssystemen. Unter Linux gilt noch immer die 2001 veröffentlichte PDF-Version 1.4 als Basis, während Version 1.7 mit den nachfolgenden Erweiterungen auf Mac OS X und Windows den gemeinsamen Nenner bilden. Adobe hat Version 1.7 bereits 2006 vorgestellt [17].

PDF als solches bietet als flexibles Format viele Freiheiten, um möglichst vielen unterschiedlichen Ansprüchen gerecht zu werden. Der Standard erlaubt etwa das Einbinden externer Daten wie Schriftarten, Webseiten und Attachments, regelt darüber hinaus aber auch den Umgang mit Formularen, Ebenen und Transparenzen.

VeraPDF

Als Steuerungsgremium für die Entwicklung von PDF/A fungiert die PDF Association [6]. Sie hält auch beim Projekt VeraPDF [7] die Fäden zusammen. Die Europäische Union fördert das Projekt im Rahmen der Initiative "Preservation Formats for culture information/e-archives" (PREFORMA) [8]. Der Quellcode steht unter den freien Lizenzen GPLv3 und MPLv2.

Im Januar 2017 erfolgte die Veröffentlichung von VeraPDF 1.0 [9] mit sehr viel Rummel [10]. Die Entwickler bitten seitdem intensiv um Rückmeldungen, um bis zur finalen Freigabe der Version 1 im Juli 2017 noch möglichst viele Fehler zu finden und zu beseitigen.

Dieses Vorgehen weicht eklatant vom bisher üblichen Schema der Vergabe einer Versionsnummer ab. Verfolgen Sie die Ergänzungen auf GitHub [11] oder lesen die Mailingliste des Projekts mit, sehen Sie jedoch, dass die Saat aufgeht und nahezu täglich Verbesserungen erscheinen.

Bezug und Installation

Die Installation erfolgt in der Regel nicht über die Paketverwaltung. VeraPDF steht zum kostenfreien Download auf der Webseite des Projekts als Zip-Archiv für Linux, Windows und Mac OS X bereit. Es setzt Java 7 voraus; Sie benötigen daher unter Debian oder Ubuntu das Paket openjdk-7-jre [12].

Im ersten Schritt laden Sie die rund 36 MByte große Datei verapdf-installer.zip herunter und entpacken diese mittels Unzip in einem lokalen Verzeichnis. Sie erhalten einen neuen Ordner namens verapdf-Version-PDFBOX, wobei sich die Daten der im Test verwendeten Variante 1.0.6 in verapdf-1.0.6-PDFBOX befanden. Im Verzeichnis liegen drei Skripte, von dem Sie verapdf-install auswählen und mit folgendem Befehl aufrufen:

$ ./verapdf-install

Der auf Java basierende Installer führt in fünf Schritten durch das Setup. Nach den Hinweisen zum Projekt (Schritt 1) legen Sie das Verzeichnis für die eigentliche Installation fest (Schritt 2). Das Programm schlägt ~/verapdf/ vor, was Sie jedoch nach eigenem Gusto anpassen dürfen.

Im dritten Schritt bestimmen Sie, welche der fünf Komponenten Sie nutzen wollen: Sie benötigen zwingend die grafische Bedienoberfläche (veraPDF GUI) und die Skripte, optional sind hingegen die Testdaten, die Dokumentation und die Beispiele für Plugins (Abbildung 1). In den Schritten 4 und 5 erhalten Sie die Bestätigung zur erfolgreichen Installation der Komponenten.

Abbildung 1: Ein Assistent führt Sie durch die Installation der Software. Er bietet die Möglichkeit, die gewünschten Komponenten auszuwählen.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Accessibility für PDF-Dokumente
    Menschen mit Behinderungen können viele PDF-Dokumente nicht oder nur teilweise lesen. Dabei lassen sich mit nur wenig Aufwand für jedermann zugängliche PDFs erstellen.
  • Accessibility für PDF-Dokumente
    Barrierefreie PDF-Dokumente lassen sich nicht auf Knopfdruck erzeugen. Um die Zugänglichkeit für die Benutzer sicherzustellen, gilt es die erstellten PDFs genau zu prüfen und noch verbleibende Hindernisse manuell zu beseitigen.
  • Angemerkt
    Digitale Post-Its im PDF helfen beim Teamwork. Aber nur wenige Applikationen kleben den virtuellen Zettel an die richtige Stelle.
  • In PDF- und PS-Dateien suchen
    Postscript und PDF erzeugen kann jeder – darin suchen ist schon etwas schwieriger. Wir zeigen, welche Werkzeuge zum Erfolg verhelfen.
  • Open Document Format im Praxistest
    Was passiert, wenn man ein mit OpenOffice erzeugtes ODT-Dokument durch Textverarbeitungen wie Abiword, Writely und KWord jagt? Sehen Sie selbst.
Kommentare

Infos zur Publikation

LU 05/2018: GEODATEN

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

added to access control list
Ingrid Kroll, 27.03.2018 07:59, 10 Antworten
Hallo allerseits, bin einfache Nutzerin und absolut Linux-unwissend............ Beim ganz norm...
Passwortsicherheit
Joe Cole, 15.03.2018 15:15, 2 Antworten
Ich bin derzeit selbständig und meine Existenz hängt am meinem Unternehmen. Wahrscheinlich verfol...
Brother drucker einrichten.
Achim Zerrer, 13.03.2018 11:26, 1 Antworten
Da mein Rechner abgestürzt war, musste ich das Betriebssystem neu einrichten. Jetzt hänge ich wi...
Internet abschalten
Karl-Heinz Hauser, 20.02.2018 20:10, 2 Antworten
In der Symbolleiste kann man das Kabelnetzwerk ein und ausschalten. Wie sicher ist die Abschaltu...
JQuery-Script läuft nicht mit Linux-Browsern
Stefan Jahn, 16.02.2018 12:49, 2 Antworten
Hallo zusammen, ...folgender goldener Code (ein jQuery-Script als Ergebnis verschiedener Exper...