Gscan2pdf 1.3.2 – GUI für Kommandozeilen-Scan- und OCR-Software

Mit Gscan2pdf steigen die Chancen, den Papierkrieg zu gewinnen: Scannen Sie Ihre Dokumente als PDFs mit maschinell erkanntem Text ein. Mit einer Desktopsuchmaschine, wie Sie KDE mitbringt, werden Sie dann auch in hunderten Seiten schnell per Schlagwortsuche fündig.

Das Wort "Papierkrieg" bringt es auf den Punkt: Viele Zeitgenossen liegen im Dauerclinch mit dem wachsenden Papierstapel auf dem Schreibtisch. Größere Firmen archivieren daher ihre Geschäftkorrespondenz längst in elektronischer Form.

Eine wichtige Voraussetzung für professionelles Dokumentmanagement ist die Verschlagwortung des eingescannten Texts. OCR-Software (Optical Character Recognition) erkennt dazu den nur als Bilddatei vorliegenden Text. Mit Gscan2pdf [8] gibt es ein praktisches GUI, das Ihnen das Hantieren mit den beiden Kommandozeilen-OCR-Programmen Tesseract [9] und Cuneiform [10] erspart (Abbildung 5).

Abbildung 5: Gscan2pdf ist ein leistungsfähiges Scanprogramm, das vollautomatisch PDF-Dateien mit eingebettetem, durchsuchbarem Text erzeugt.

Brot und Butter

Das bereits in Ausgabe 03/2014 vorgestellte Tool erzeugt so genannte Sandwich-PDF-Dateien, bei denen eine unsichtbare Textebene über dem eingescannten Dokument liegt. Suchen Sie mit der Suchfunktion Ihres PDF-Readers, findet und markiert dieser das Wort in der verborgenen Textebene. Das sieht dann so aus, als wäre das Wort direkt im Scan markiert (Abbildung 6) – in etwa wenigstens, denn hundertprozentig decken sich erkannter Text und Scan bei Gscan2pdf nicht. Doch auf jeden Fall finden Sie so die gesuchte Stelle.

Abbildung 6: Das Besondere an den von Gscan2pdf erzeugten PDF-Dateien ist der unsichtbar über dem Bild liegende Text für die Suchfunktion des PDF-Readers.

KDE bietet zusätzlich eine Volltextsuche für den in den PDF-Dateien enthaltenen Text: Mit der Suchfunktion im Dateimanager Dolphin finden Sie alle Dokumente, die einen Suchbegriff enthalten. Benutzer anderer Desktops installieren stattdessen die Desktopsuchmaschine Recoll [11].

Für die maschinelle Texterkennung müssen Sie von Hand eine OCR-Engine auf Ihrem System installieren, da das nicht automatisch beim Einspielen von Gscan2pdf geschieht. Am besten funktioniert Tesseract, bestehend aus den Paketen tesseract und tesseract-traineddata-german. Für andere Sprachen als Deutsch suchen Sie in der Paketverwaltung nach weiteren Paketen mit dem Namen tesseract-traineddata-xxx. Für das Nachbearbeiten setzt Gscan2pdf auf das externe Programm unpaper, das Sie ebenfalls manuell nachinstallieren.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 6 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

EL 08-10/2017: BACKUP

Digitale Ausgabe: Preis € 9,80
(inkl. 19% MwSt.)

EasyLinux erscheint vierteljährlich und kostet 9,80 Euro. Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 33,30 Euro. Details dazu finden Sie im Computec-Shop.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!      

Stellenmarkt

Aktuelle Fragen

Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 2 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...
Backup mit KUP unter Suse 42.3
Horst Schwarz, 24.09.2017 13:16, 3 Antworten
Ich möchte auch wieder unter Suse 42.3 mit Kup meine Backup durchführen. Eine Installationsmöglic...
kein foto, etc. upload möglich, wo liegt mein fehler?
kerstin brums, 17.09.2017 22:08, 5 Antworten
moin, zum erstellen einer einfachen wordpress website kann ich keine fotos uploaden. vom rechne...
Arch Linux Netzwerkkonfigurationen
Franziska Schley, 15.09.2017 18:04, 0 Antworten
Moin liebe Linux community, ich habe momentan Probleme mit der Einstellung des Lan/Wlan in Arc...