PDF-Dateien verarbeiten und durchsuchbar machen

Durchleuchtet

, ,
PDF ist der Standard für den Austausch von Dokumenten, denn PDF-Dateien sehen auf allen Rechnern gleich aus. Für Linux gibt es zahlreiche Tools, mit denen Sie alle Möglichkeiten dieses Dateiformats ausreizen.

Dokumente unterschiedlichster Art, von Rechnungen über Bedienungsanleitungen bis hin zu Büchern und wissenschaftlichen Arbeiten, werden heute digital verschickt, verbreitet und genutzt – vorzugsweise im plattformunabhängigen PDF-Format. Durchsuchbare Dokumente erleichtern das schnelle Auffinden einer bestimmten Stelle in der Datei, Metadaten liefern zusätzliche Informationen.

Zudem gibt es zahlreiche Möglichkeiten, PDF-Dokumente zu bearbeiten: Ganz nach Bedarf lassen sich Seiten entfernen, neue einfügen oder einzelne Seiten zu einer neuen PDF-Datei zusammenfügen. Auch können Sie in einer PDF-Datei, wie in einem gedruckten Text, Textstellen markieren oder Anmerkungen hinzufügen.

Texterkennung

Um die Möglichkeiten des PDF-Formats voll auszureizen, sollten PDF-Dateien durchsuchbar sein. So durchstöbern Sie etwa gleich mehrere Dokumente nach bestimmten Wörtern und finden innerhalb einer Datei über die Suchfunktion des PDF-Betrachters schnell die richtige Stelle. PDF-Dateien, die Sie mit LaTeX oder LibreOffice erstellen, lassen sich üblicherweise bereits durchsuchen. Anders sieht es jedoch bei PDF-Dateien aus, die Sie aus Scans erstellen: Sie bestehen nach dem Scan zunächst nur aus reinen Bilddaten, denen Sie über eine Texterkennung noch eine Textebene hinzufügen müssen.

Als Texterkennungsprogramm für Linux empfiehlt sich die OCR-Engine Tesseract [1]. Die meisten Distributionen führen das Programm in ihren Paketquellen:

  • Unter OpenSuse installieren Sie tesseract-ocr und eines der Sprachpakete, z. B. tesseract-ocr-traineddata-german. (Das Paket für die englische Sprache richtet OpenSuse automatisch mit ein.)
  • Für Ubuntu und Mint wählen Sie
...

Liebe Leserin, lieber Leser,

dieser Artikel ist derzeit nicht in vollem Umfang online zugänglich.

Sie haben die Möglichkeit, diesen Beitrag als PDF zu erwerben. Dazu nutzen Sie bitte die Box unter dem Artikel. Alternativ erweben Sie die Ausgabe als PDF in unserem Online-Shop.

EasyLinux-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift EasyLinux finden Sie im Archiv.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Blätterwald
    Das PDF-Format hat sich als Standard für den Austausch von Dokumenten etabliert. Unter Linux stehen eine ganze Reihe von Programmen bereit, mit denen Sie alle Möglichkeiten dieses Dateiformats optimal ausreizen.
  • Ein Multifunktionsgerät für die Arbeit mit PDF-Dateien
    Zur Verarbeitung der Papierberge im Büro nutzen wir die moderne Bürotechnik. Wir müssen Dokumente abheften und entheften, kopieren, neu zusammenstellen, abstempeln, untersuchen oder klassifizieren. Bei der täglichen Arbeit mit elektronischen Dokumenten kann ein ganz spezielles Multifunktionsgerät verwendet werden: Pdftk ­ das PDF-Toolkit.
  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Bits statt Papier
    Mit einem digitalen Archiv sparen Sie Platz im Aktenschrank – aber Paperwork macht das Leben nicht unbedingt leichter.
Kommentare

Infos zur Publikation

EL 02/2018-04/2018: Distributionen - freie Auswahl

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Stellenmarkt

Aktuelle Fragen

JQuery-Script läuft nicht mit Linux-Browsern
Stefan Jahn, 16.02.2018 12:49, 2 Antworten
Hallo zusammen, ...folgender goldener Code (ein jQuery-Script als Ergebnis verschiedener Exper...
XSane-Fotokopie druckt nicht mehr
Wimpy *, 30.01.2018 13:29, 0 Antworten
openSuse 42.3 KDE 5.8.7 Seit einem Software-Update druckt XSane keine Fotokopie mehr aus. Fehler...
TOR-Browser stürzt wegen Wikipedia ab
Wimpy *, 27.01.2018 14:57, 0 Antworten
Tor-Browser 7.5 based on Mozilla Firefox 52.8.0 64-Bit. Bei Aufruf von http: oder https://de.wi...
Wifikarte verhindert Bootvorgang
Maik Kühn, 21.01.2018 22:23, 1 Antworten
iwlwifi-7265D -26 failed to load iwlwifi-7265D -25 failed to load iwlwifi-7265D -24 failed to l...
sharklinux
Gerd-Peter Behrendt, 18.01.2018 23:58, 2 Antworten
Hallo zusammen, ich habe sharklinux von der DVD Installiert. 2x, jedesmal nach dem Reboot ist di...