Scheibchenweise
Werkzeuge für PDF und Postscript (Teil 5)
Bilder aus PDFs extrahieren
Anders als Psrip benötigt Pdfimages neben der Angabe des PDF-Files auch noch eine Bezeichnung oder einen Präfix, um damit die extrahierten Bilder zu benennen. Ohne Angabe weiterer Optionen erzeugt es entweder die Formate Portable Pixmap (PPM) oder – für monochrome Bilder – Portable Bitmap (PBM). Möchten Sie stattdessen Bilder im JPEG-Format erhalten, signalisieren Sie das über die Option -j:
$ pdfimages -j vortrag.pdf bild
Abbildung 6 zeigt den Aufruf von Pdfimages und die Vorschau der aus dem PDF-Dokument extrahierten Bilder. Die Files erhielten das Präfix bild, die Nummerierung erfolgt automatisch in aufsteigender Reihenfolge. Dass bild-002.ppm und bild-003.ppm identisch sind, ist kein Fehler, sondern liegt daran, dass die gleiche Abbildung zwei Mal hintereinander im PDF vorkommt.
Die Qualität der extrahierten Bilder kann Pdfimages nicht beeinflussen, da es die Bilddaten exakt so entnimmt, wie sie im PDF vorliegen. Nachträgliche Veränderungen und das Konvertieren in andere Bildformate erledigen Sie jedoch leicht mittels convert aus dem ImageMagick-Fundus.
Glossar
pt
Abkürzung für "Points", ein drucktechnisch begründetes Längenmaß. 1 pt entspricht 0,375 mm.
Infos
[1] Magic Numbers (Wikipedia): http://en.wikipedia.org/wiki/File_format
[2] Xpdf und Foolabs: http://www.foolabs.com/xpdf/
[3] Adobe Postscript Language Specification: http://partners.adobe.com/public/developer/ps/index_specs.html
[4] Postscript Language Reference Manual, Adobe Systems Inc., Addison-Wesley, 1985, ISBN 0-201-10174-2
[5] Screenreader (Wikipedia): http://de.wikipedia.org/wiki/Screenreader
[6] Ghostscript, Ghostview und Gsview: http://pages.cs.wisc.edu/~ghost/
[7] Postscript and Ghostscript Information & Ressource Directory: http://www.inkguides.com/postscript.asp
[8] Psrip für Debian: http://packages.debian.org/de/sid/psrip



