AA_123rf-8469139_ginasanders-123RF.jpg

© ginasanders, 123RF

Papierlos

Paperwork im Kampf gegen wachsende Aktenberge

17.07.2014
Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.

Die Idee von Paperwork [1] geht auf den Wunsch nach dem papierlosen Büro zurück: Sie scannen eingehende Briefe, Rechnungen und lose herumfliegende Blätter oder erzeugen auf andere Weise PDF- und JPEG-Dateien der Unterlagen. Diese schicken Sie anschließend durch eine OCR-Texterkennung, die den Inhalt in digitale Form bringt. Anschließend fasst eine Anwendung Bilddaten und Text in überlagerter Form zusammen und sichert sie als PDF.

Bei diesem Verfahren gilt es jedoch, einige Klippen zu umschiffen: Für eine ausreichend gute Texterkennung benötigen Sie möglichst hochwertige Scans oder Fotografien der Textseiten – ein guter Scanner mit mindestens 600 dpi Auflösung ist daher Pflicht. Aber auch die OCR-Software muss ihre Aufgabe erfüllen. Paperwork sucht beim Start zunächst nach Tesseract [2]. Findet es diese sehr leistungsfähige OCR-Engine nicht, greift das Programm auf Cuneiform zurück. In den meisten Fällen erzielen Sie mit Tesseract die besten Ergebnisse.

Installation

Unter Arch Linux installieren Sie Paperwork bequem aus dem AUR. Unter Ubuntu finden Sie Paperwork aktuell noch nicht in den Paketquellen, auch ein PPA fehlt bislang. Das Ubuntuusers.de-Wiki erklärt Ihnen jedoch, wie Sie Paperwork unter Ubuntu aus dem Quellcode kompilieren [3]. Alternativ finden Sie im GitHub des Entwicklers eine englischsprachige Installationsanleitung [4].

Paperwork basiert im Wesentlichen auf vier Komponenten: Zum Scannen der Unterlagen greift Paperwork auf Sane zurück. Die Texterkennung übernehmen Tesseract oder Cuneiform. Whoosh [5] indiziert die per OCR umgewandelten Texte, sodass sie sich gut durchsuchen lassen, zudem generiert das Werkzeug automatisch Vorschläge für Schlüsselwörter. Das Ganze fasst Paperwork dann in einer mit GTK/Glade entwickelten grafischen Oberfläche zusammen.

Die bevorzugt eingesetzte OCR-Engine Tesseract stammt ursprünglich von Hewlett-Packard. Google benutzt die quelloffene Bibliothek etwa zum Digitalisieren von Büchern [6]. Die Software zeichnet sich durch eine hohe Erkennungsrate und weitestgehende Automatisierung aus. Ein Nachteil: Tesseract verarbeitet ausschließlich unkomprimierte TIFF-Eingabedateien, Dokumente gilt es daher gegebenenfalls zu konvertieren.

Das papierlose Büro mit Paperwork

Nach dem Start zeigt Paperwork eine übersichtlich gestaltete Oberfläche mit drei Abschnitten an. Links finden Sie das aktuelle Dokument, daneben die bereits vorhandenen, gescannten und bearbeiteten Seiten, rechts die aktuelle Seite im Detail. Wie der PDF-Scanner GScan2PDF [7] holt sich Paperwork Dokumente direkt aus einem angeschlossenen Scanner oder lädt bereits vorliegende Bilder von der Festplatte.

Die Software fasst eingescannte Bilder als Projekte zusammen und exportiert sie anschließend als PDF-Datei. In der Grundeinstellung speichert Paperwork die Projekte im Ordner papers als Unterverzeichnis mit dem aktuellen Datum als Name (zum Beispiel 20140605_1350_31/). In diesen Verzeichnissen legt es mehrere Dateien an: Unter paper.Nummer.jpg finden Sie JPEG-Bilder der eingescannten Seite, paper.Nummer.words beinhaltet den durch die OCR-Maschine extrahierten Text.

Diese Texte liegen allerdings nicht als einfache Textdateien vor, sondern in Form von speziellen XML-Dateien im hOCR-Format [8], in denen neben dem reinen Text auch die Position im ursprünglichen Dokument vermerkt ist. Im Texteditor lassen sich diese Dateien nur schlecht lesen, dafür kann man die extrahierten Texte exakt über die Bilddateien legen. Das speziell für gescannte Dokumente entwickelte Dokumentenformat Djvu [9] baut auf dieser Konstruktion auf.

Weiterhin speichert Paperwork im Verzeichnis noch Vorschaubilder der eingelesenen Seiten. Sie erkennen diese an dem Namensbestandteil thumb. Mit labels benannte Dateien nehmen manuell zugewiesene Labels für das Dokument auf, eine als extra.txt abgespeicherte Datei enthält die von Ihnen zusätzlich vergebenen Stichwörter.

Paperwork unterstützt mehrere Quellen zum Einlesen von Dokumenten: Aus der Anwendung lässt sich direkt ein Scanner ansteuern, den das Programm auch selbstständig über das Sane-Backend zu finden versucht. Alternativ unterstützt Paperwork per USB angeschlossene Webcams, was aber bei der normalerweise geringen Auflösung und Qualität meist keine gute Lösung darstellt. Zum anderen nutzt Paperwork auf beliebige Art erstellte Bilder als Quelle, etwa Screenshots von PDFs. Aufgrund mangelnder Qualität liefert die OCR-Engine hier aber nur selten vernünftige Ergebnisse.

Daneben erlaubt Paperwork auch das direkte Bearbeiten von PDF-Dateien. Diese laden Sie über Dokument | Datei(en) importieren ins Programm. Paperwork importiert bei Bedarf gleich mehrere PDFs in einem Rutsch, allerdings nicht rekursiv aus Unterverzeichnissen. Legen Sie daher die zu importierenden Daten gesammelt in ein Verzeichnis ab.

Texterkennung einrichten

Bevor Sie mit dem Einlesen der Dokumente beginnen, sollten Sie das Programm grundlegend einrichten (Abbildung 1). In der Werkzeugleiste finden Sie den entsprechenden Schalter als vierten von links. Neben dem Arbeitsverzeichnis konfigurieren Sie hier den Scanner und bestimmen die Sprache für die Texterkennung. Paperwork speichert die Einstellungen in der Datei ~/.config/paperwork.conf, den Index aller eingelesenen Dokumente schreibt es nach ~/.local/share/paperwork/index/.

Abbildung 1: Die Konfiguration von Paperwork beschränkt sich auf einige wenige Einstellungen.

Das Kalibrieren des Scanners erfolgt im Einstellungsdialog durch einen Mausklick auf das Symbol auf der rechten Seite. Paperwork beginnt daraufhin einen Scan, den es als Basis für die weiteren Eingaben mit diesem Gerät verwendet. Wie gut das klappt, hängt nicht zuletzt auch von den eingesetzten Fonts ab.

Abbildung 2 zeigt ein Beispiel, in dem die OCR von Paperwork trotz schräg eingescanntem Text das Dokument fast vollständig erkannte. Welche Wörter wie entziffert wurden, zeigt die Funktion Alle Wörter hervorheben im Menü Dokument unter Erweitert durch blaue Rahmen an. Ob der erzeugte Klartext nun aber auch wirklich stimmt, dass müssen Sie von Hand prüfen.

Abbildung 2: Die Texterkennung von Paperwork erzielt auch bei schlecht eingescannten Unterlagen gute Trefferquoten.

In Abbildung 3 versucht sich Paperwork an einem aus OpenOffice heraus generierten PDF. Dieses bietet eigentlich bessere Voraussetzungen als ein per Scanner eingelesenes Dokument, doch das Ergebnis zeigt viele nicht erkannte Wörter, hier bleibt die Markierung mit einem blauen Rahmen aus. Durch Eingrenzen des von der OCR-Engine bearbeiteten Bereichs unter Dokument | Bearbeiten lässt sich das Ergebnis oft optimieren (Abbildung 4), dabei startet allerdings jedes Mal auch ein neuer zeitraubender OCR-Lauf.

Abbildung 3: Textpassagen ohne blaue Umrandung wurden von der Paperwork-Texterkennung nicht als Text erfasst.
Abbildung 4: Durch gezieltes Eingrenzen des zu bearbeitenden Bereichs im Bild optimieren Sie die Texterkennung.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...