Gscan2pdf 1.3.2 – GUI für Kommandozeilen-Scan- und OCR-Software

Mit Gscan2pdf steigen die Chancen, den Papierkrieg zu gewinnen: Scannen Sie Ihre Dokumente als PDFs mit maschinell erkanntem Text ein. Mit einer Desktopsuchmaschine, wie Sie KDE mitbringt, werden Sie dann auch in hunderten Seiten schnell per Schlagwortsuche fündig.

Das Wort "Papierkrieg" bringt es auf den Punkt: Viele Zeitgenossen liegen im Dauerclinch mit dem wachsenden Papierstapel auf dem Schreibtisch. Größere Firmen archivieren daher ihre Geschäftkorrespondenz längst in elektronischer Form.

Eine wichtige Voraussetzung für professionelles Dokumentmanagement ist die Verschlagwortung des eingescannten Texts. OCR-Software (Optical Character Recognition) erkennt dazu den nur als Bilddatei vorliegenden Text. Mit Gscan2pdf [8] gibt es ein praktisches GUI, das Ihnen das Hantieren mit den beiden Kommandozeilen-OCR-Programmen Tesseract [9] und Cuneiform [10] erspart (Abbildung 5).

Abbildung 5: Gscan2pdf ist ein leistungsfähiges Scanprogramm, das vollautomatisch PDF-Dateien mit eingebettetem, durchsuchbarem Text erzeugt.

Brot und Butter

Das bereits in Ausgabe 03/2014 vorgestellte Tool erzeugt so genannte Sandwich-PDF-Dateien, bei denen eine unsichtbare Textebene über dem eingescannten Dokument liegt. Suchen Sie mit der Suchfunktion Ihres PDF-Readers, findet und markiert dieser das Wort in der verborgenen Textebene. Das sieht dann so aus, als wäre das Wort direkt im Scan markiert (Abbildung 6) – in etwa wenigstens, denn hundertprozentig decken sich erkannter Text und Scan bei Gscan2pdf nicht. Doch auf jeden Fall finden Sie so die gesuchte Stelle.

Abbildung 6: Das Besondere an den von Gscan2pdf erzeugten PDF-Dateien ist der unsichtbar über dem Bild liegende Text für die Suchfunktion des PDF-Readers.

KDE bietet zusätzlich eine Volltextsuche für den in den PDF-Dateien enthaltenen Text: Mit der Suchfunktion im Dateimanager Dolphin finden Sie alle Dokumente, die einen Suchbegriff enthalten. Benutzer anderer Desktops installieren stattdessen die Desktopsuchmaschine Recoll [11].

Für die maschinelle Texterkennung müssen Sie von Hand eine OCR-Engine auf Ihrem System installieren, da das nicht automatisch beim Einspielen von Gscan2pdf geschieht. Am besten funktioniert Tesseract, bestehend aus den Paketen tesseract und tesseract-traineddata-german. Für andere Sprachen als Deutsch suchen Sie in der Paketverwaltung nach weiteren Paketen mit dem Namen tesseract-traineddata-xxx. Für das Nachbearbeiten setzt Gscan2pdf auf das externe Programm unpaper, das Sie ebenfalls manuell nachinstallieren.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 6 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

EL 02/2018-04/2018: Distributionen - freie Auswahl

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Stellenmarkt

Aktuelle Fragen

JQuery-Script läuft nicht mit Linux-Browsern
Stefan Jahn, 16.02.2018 12:49, 2 Antworten
Hallo zusammen, ...folgender goldener Code (ein jQuery-Script als Ergebnis verschiedener Exper...
XSane-Fotokopie druckt nicht mehr
Wimpy *, 30.01.2018 13:29, 0 Antworten
openSuse 42.3 KDE 5.8.7 Seit einem Software-Update druckt XSane keine Fotokopie mehr aus. Fehler...
TOR-Browser stürzt wegen Wikipedia ab
Wimpy *, 27.01.2018 14:57, 0 Antworten
Tor-Browser 7.5 based on Mozilla Firefox 52.8.0 64-Bit. Bei Aufruf von http: oder https://de.wi...
Wifikarte verhindert Bootvorgang
Maik Kühn, 21.01.2018 22:23, 1 Antworten
iwlwifi-7265D -26 failed to load iwlwifi-7265D -25 failed to load iwlwifi-7265D -24 failed to l...
sharklinux
Gerd-Peter Behrendt, 18.01.2018 23:58, 2 Antworten
Hallo zusammen, ich habe sharklinux von der DVD Installiert. 2x, jedesmal nach dem Reboot ist di...