PDF-Dateien verarbeiten und durchsuchbar machen

Aus EasyLinux 04/2018

PDF-Dateien verarbeiten und durchsuchbar machen

Durchleuchtet

PDF ist der Standard für den Austausch von Dokumenten, denn PDF-Dateien sehen auf allen Rechnern gleich aus. Für Linux gibt es zahlreiche Tools, mit denen Sie alle Möglichkeiten dieses Dateiformats ausreizen.

Dokumente unterschiedlichster Art, von Rechnungen über Bedienungsanleitungen bis hin zu Büchern und wissenschaftlichen Arbeiten, werden heute digital verschickt, verbreitet und genutzt – vorzugsweise im plattformunabhängigen PDF-Format. Durchsuchbare Dokumente erleichtern das schnelle Auffinden einer bestimmten Stelle in der Datei, Metadaten liefern zusätzliche Informationen.

Zudem gibt es zahlreiche Möglichkeiten, PDF-Dokumente zu bearbeiten: Ganz nach Bedarf lassen sich Seiten entfernen, neue einfügen oder einzelne Seiten zu einer neuen PDF-Datei zusammenfügen. Auch können Sie in einer PDF-Datei, wie in einem gedruckten Text, Textstellen markieren oder Anmerkungen hinzufügen.

Texterkennung

Um die Möglichkeiten des PDF-Formats voll auszureizen, sollten PDF-Dateien durchsuchbar sein. So durchstöbern Sie etwa gleich mehrere Dokumente nach bestimmten Wörtern und finden innerhalb einer Datei über die Suchfunktion des PDF-Betrachters schnell die richtige Stelle. PDF-Dateien, die Sie mit LaTeX oder LibreOffice erstellen, lassen sich üblicherweise bereits durchsuchen. Anders sieht es jedoch bei PDF-Dateien aus, die Sie aus Scans erstellen: Sie bestehen nach dem Scan zunächst nur aus reinen Bilddaten, denen Sie über eine Texterkennung noch eine Textebene hinzufügen müssen.

Als Texterkennungsprogramm für Linux empfiehlt sich die OCR-Engine Tesseract [1]. Die meisten Distributionen führen das Programm in ihren Paketquellen:

  • Unter OpenSuse installieren Sie tesseract-ocr und eines der Sprachpakete, z. B. tesseract-ocr-traineddata-german. (Das Paket für die englis...

[...]

Liebe Leserin, lieber Leser,

dieser Artikel ist derzeit nicht in vollem Umfang online zugänglich.

Sie haben die Möglichkeit, diesen Beitrag als PDF zu erwerben. Dazu nutzen Sie bitte die Box unter dem Artikel. Alternativ erweben Sie die Ausgabe als PDF in unserem Online-Shop.

EasyLinux-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift EasyLinux 04/2018 finden Sie im Archiv.

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF
EasyLinux 04/2018 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben