AA_digitize_loganban_123rf_38387768.jpg

© Loganban

Mit Paperwork Dokumente digitalisieren und archivieren

Bits statt Papier

Mit einem digitalen Archiv sparen Sie Platz im Aktenschrank – aber Paperwork macht das Leben nicht unbedingt leichter.

Die Idee von Paperwork [1] geht auf den Wunsch nach einem papierlosen Büro zurück: Briefe, Rechnungen und lose Blätter landen auf dem Scanner, der sie als PDF- und JPEG-Dateien für die Ablage ausspuckt. Die Dateien schicken Sie anschließend durch eine OCR-Texterkennung, die den Inhalt in digitale Form bringt.

Hier schlägt die Stunde von Paperwork: Die Applikation fasst Bilddaten und Text in überlagerter Form zusammen und sichert sie als PDF. Die Textinhalte der aufbereiteten Unterlagen fasst Paperwork in einem Index zusammen, über den Sie später die Dokumente wiederfinden. Bei diesem Verfahren gilt es jedoch, einige Klippen zu umschiffen: Damit die Software die Texte ausreichend gut erkennt, benötigen Sie möglichst hochwertige Scans oder Fotografien der Seiten – ein guter Scanner mit mindestens 600 DPI Auflösung ist daher Voraussetzung.

Paperwork sucht beim Start zunächst nach Tesseract [2]. Findet es diese sehr leistungsfähige OCR-Engine nicht, greift das Programm auf Cuneiform zurück. In den meisten Fällen erzielen Sie mit Tesseract die besten Ergebnisse.

Hier geht Paperwork übrigens einen interessanten Weg: Falls es die Orientierung der eingescannten Seiten nicht ermitteln kann, bearbeitet es die Seite einfach viermal in um 90 Grad gedrehten Varianten und verwendet dann die besten Ergebnisse.

Installation

Allgemeine Informationen zur Installation finden Sie auf der Website des Paperwork-Git-Repositories [3]. Unter Ubuntu und Derivaten befindet sich die momentan aktuelle Version 0.32 nicht in den Repositories, es gibt aber ein PPA. Zu dessen Installation finden Sie online Informationen [4].

Der Einsatz von Paperwork unter Arch Linux gestaltet sich ausgesprochen schwierig. So deckte die Installation für diesen Artikel auf, dass die Version im Repository aufgrund von Problemen im Paket nicht funktionierte. Selbst wenn die Installation erfolgreich verlief, hieß das nicht, dass Paperwork funktionierte. Das Paket weist eine Vielzahl sehr verschachtelter Abhängigkeiten auf, sodass es nach Updates immer wieder die Arbeit versagte.

Ein Test mit paperwork-chkdeps – ein im Paket enthaltenes Testprogramm – stellte ebenfalls nicht sicher, das Paperwork nach der Installation auch funktionierte. Dazu kommt, dass bei Weitem nicht alle Abhängigkeiten ausformuliert sind: So verlangte Paperwork zum Öffnen eines Verzeichnisses nach Nemo, dem Dateimanager von Cinnamon.

Architektur

Die Applikation als solche basiert im Wesentlichen auf vier Komponenten: Zum Scannen der Unterlagen greift Paperwork auf Sane zurück, mit Tesseract oder Cuneiform bearbeitet es die Dokumente, und mit Whoosh [5] indiziert es die per OCR umgewandelten Texte. Zudem generiert das Werkzeug automatisch Vorschläge für Schlüsselwörter. Dabei reduziert es die Wörter auf den Wortstamm, um zu sinnvollen Ergebnissen zu gelangen. Eine mit GTK/Glade entwickelte grafische Oberfläche fasst alle Bestandteile zusammen.

Die bevorzugt eingesetzte OCR-Engine Tesseract stammt ursprünglich von Hewlett-Packard. Google benutzt die quelloffene Bibliothek etwa zum Digitalisieren von Büchern. Die Software zeichnet sich durch hohe Erkennungsraten und weitestgehende Automatisierung aus.

Da Tesseract ausschließlich mit unkomprimierten TIFF-Dateien arbeitet, gilt es, die gescannten Seiten zunächst aufzubereiten. Erfahrungsgemäß ist dieser Schritt sehr anspruchsvoll und nur teilweise automatisch zu erledigen. Hier liegt eine der Schwächen von Paperwork. Programme wie Gscan2pdf [6] bieten da mehr Möglichkeiten.

Aus den aufbereiteten Seiten eines Projekts erzeugt Paperwork eine durchsuchbare – mit Text versehene – PDF-Datei. Derzeit unterstützt die Software neben dem direkten Scannen das Einlesen von PDF-Dokumenten sowie das Auswerten von gescannten Bildern. Moderne Bildformate wie JPEG2000 unterstützt sie zwar nicht, dafür aber die klassischen Varianten wie JPEG oder PNG.

Allerdings ist derzeit weder möglich, mehrere Bilddateien gleichzeitig in ein Projekt zu laden, noch einen ganzen Ordner mit gescannten Bildern. Das macht die Arbeit extrem aufwendig und mühselig, wenn Sie bereits vorliegende Scans weiterverarbeiten möchten.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 6 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 03/2018 NEUE DISTRIBUTIONEN

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Internet abschalten
Karl-Heinz Hauser, 20.02.2018 20:10, 0 Antworten
In der Symbolleiste kann man das Kabelnetzwerk ein und ausschalten. Wie sicher ist die Abschaltu...
JQuery-Script läuft nicht mit Linux-Browsern
Stefan Jahn, 16.02.2018 12:49, 2 Antworten
Hallo zusammen, ...folgender goldener Code (ein jQuery-Script als Ergebnis verschiedener Exper...
XSane-Fotokopie druckt nicht mehr
Wimpy *, 30.01.2018 13:29, 2 Antworten
openSuse 42.3 KDE 5.8.7 Seit einem Software-Update druckt XSane keine Fotokopie mehr aus. Fehler...
TOR-Browser stürzt wegen Wikipedia ab
Wimpy *, 27.01.2018 14:57, 0 Antworten
Tor-Browser 7.5 based on Mozilla Firefox 52.8.0 64-Bit. Bei Aufruf von http: oder https://de.wi...
Wifikarte verhindert Bootvorgang
Maik Kühn, 21.01.2018 22:23, 1 Antworten
iwlwifi-7265D -26 failed to load iwlwifi-7265D -25 failed to load iwlwifi-7265D -24 failed to l...