AA_123rf-8469139_ginasanders-123RF.jpg

© ginasanders, 123RF

Papierlos

Paperwork im Kampf gegen wachsende Aktenberge

17.07.2014
Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.

Die Idee von Paperwork [1] geht auf den Wunsch nach dem papierlosen Büro zurück: Sie scannen eingehende Briefe, Rechnungen und lose herumfliegende Blätter oder erzeugen auf andere Weise PDF- und JPEG-Dateien der Unterlagen. Diese schicken Sie anschließend durch eine OCR-Texterkennung, die den Inhalt in digitale Form bringt. Anschließend fasst eine Anwendung Bilddaten und Text in überlagerter Form zusammen und sichert sie als PDF.

Bei diesem Verfahren gilt es jedoch, einige Klippen zu umschiffen: Für eine ausreichend gute Texterkennung benötigen Sie möglichst hochwertige Scans oder Fotografien der Textseiten – ein guter Scanner mit mindestens 600 dpi Auflösung ist daher Pflicht. Aber auch die OCR-Software muss ihre Aufgabe erfüllen. Paperwork sucht beim Start zunächst nach Tesseract [2]. Findet es diese sehr leistungsfähige OCR-Engine nicht, greift das Programm auf Cuneiform zurück. In den meisten Fällen erzielen Sie mit Tesseract die besten Ergebnisse.

Installation

Unter Arch Linux installieren Sie Paperwork bequem aus dem AUR. Unter Ubuntu finden Sie Paperwork aktuell noch nicht in den Paketquellen, auch ein PPA fehlt bislang. Das Ubuntuusers.de-Wiki erklärt Ihnen jedoch, wie Sie Paperwork unter Ubuntu aus dem Quellcode kompilieren [3]. Alternativ finden Sie im GitHub des Entwicklers eine englischsprachige Installationsanleitung [4].

Paperwork basiert im Wesentlichen auf vier Komponenten: Zum Scannen der Unterlagen greift Paperwork auf Sane zurück. Die Texterkennung übernehmen Tesseract oder Cuneiform. Whoosh [5] indiziert die per OCR umgewandelten Texte, sodass sie sich gut durchsuchen lassen, zudem generiert das Werkzeug automatisch Vorschläge für Schlüsselwörter. Das Ganze fasst Paperwork dann in einer mit GTK/Glade entwickelten grafischen Oberfläche zusammen.

Die bevorzugt eingesetzte OCR-Engine Tesseract stammt ursprünglich von Hewlett-Packard. Google benutzt die quelloffene Bibliothek etwa zum Digitalisieren von Büchern [6]. Die Software zeichnet sich durch eine hohe Erkennungsrate und weitestgehende Automatisierung aus. Ein Nachteil: Tesseract verarbeitet ausschließlich unkomprimierte TIFF-Eingabedateien, Dokumente gilt es daher gegebenenfalls zu konvertieren.

Das papierlose Büro mit Paperwork

Nach dem Start zeigt Paperwork eine übersichtlich gestaltete Oberfläche mit drei Abschnitten an. Links finden Sie das aktuelle Dokument, daneben die bereits vorhandenen, gescannten und bearbeiteten Seiten, rechts die aktuelle Seite im Detail. Wie der PDF-Scanner GScan2PDF [7] holt sich Paperwork Dokumente direkt aus einem angeschlossenen Scanner oder lädt bereits vorliegende Bilder von der Festplatte.

Die Software fasst eingescannte Bilder als Projekte zusammen und exportiert sie anschließend als PDF-Datei. In der Grundeinstellung speichert Paperwork die Projekte im Ordner papers als Unterverzeichnis mit dem aktuellen Datum als Name (zum Beispiel 20140605_1350_31/). In diesen Verzeichnissen legt es mehrere Dateien an: Unter paper.Nummer.jpg finden Sie JPEG-Bilder der eingescannten Seite, paper.Nummer.words beinhaltet den durch die OCR-Maschine extrahierten Text.

Diese Texte liegen allerdings nicht als einfache Textdateien vor, sondern in Form von speziellen XML-Dateien im hOCR-Format [8], in denen neben dem reinen Text auch die Position im ursprünglichen Dokument vermerkt ist. Im Texteditor lassen sich diese Dateien nur schlecht lesen, dafür kann man die extrahierten Texte exakt über die Bilddateien legen. Das speziell für gescannte Dokumente entwickelte Dokumentenformat Djvu [9] baut auf dieser Konstruktion auf.

Weiterhin speichert Paperwork im Verzeichnis noch Vorschaubilder der eingelesenen Seiten. Sie erkennen diese an dem Namensbestandteil thumb. Mit labels benannte Dateien nehmen manuell zugewiesene Labels für das Dokument auf, eine als extra.txt abgespeicherte Datei enthält die von Ihnen zusätzlich vergebenen Stichwörter.

Paperwork unterstützt mehrere Quellen zum Einlesen von Dokumenten: Aus der Anwendung lässt sich direkt ein Scanner ansteuern, den das Programm auch selbstständig über das Sane-Backend zu finden versucht. Alternativ unterstützt Paperwork per USB angeschlossene Webcams, was aber bei der normalerweise geringen Auflösung und Qualität meist keine gute Lösung darstellt. Zum anderen nutzt Paperwork auf beliebige Art erstellte Bilder als Quelle, etwa Screenshots von PDFs. Aufgrund mangelnder Qualität liefert die OCR-Engine hier aber nur selten vernünftige Ergebnisse.

Daneben erlaubt Paperwork auch das direkte Bearbeiten von PDF-Dateien. Diese laden Sie über Dokument | Datei(en) importieren ins Programm. Paperwork importiert bei Bedarf gleich mehrere PDFs in einem Rutsch, allerdings nicht rekursiv aus Unterverzeichnissen. Legen Sie daher die zu importierenden Daten gesammelt in ein Verzeichnis ab.

Texterkennung einrichten

Bevor Sie mit dem Einlesen der Dokumente beginnen, sollten Sie das Programm grundlegend einrichten (Abbildung 1). In der Werkzeugleiste finden Sie den entsprechenden Schalter als vierten von links. Neben dem Arbeitsverzeichnis konfigurieren Sie hier den Scanner und bestimmen die Sprache für die Texterkennung. Paperwork speichert die Einstellungen in der Datei ~/.config/paperwork.conf, den Index aller eingelesenen Dokumente schreibt es nach ~/.local/share/paperwork/index/.

Abbildung 1: Die Konfiguration von Paperwork beschränkt sich auf einige wenige Einstellungen.

Das Kalibrieren des Scanners erfolgt im Einstellungsdialog durch einen Mausklick auf das Symbol auf der rechten Seite. Paperwork beginnt daraufhin einen Scan, den es als Basis für die weiteren Eingaben mit diesem Gerät verwendet. Wie gut das klappt, hängt nicht zuletzt auch von den eingesetzten Fonts ab.

Abbildung 2 zeigt ein Beispiel, in dem die OCR von Paperwork trotz schräg eingescanntem Text das Dokument fast vollständig erkannte. Welche Wörter wie entziffert wurden, zeigt die Funktion Alle Wörter hervorheben im Menü Dokument unter Erweitert durch blaue Rahmen an. Ob der erzeugte Klartext nun aber auch wirklich stimmt, dass müssen Sie von Hand prüfen.

Abbildung 2: Die Texterkennung von Paperwork erzielt auch bei schlecht eingescannten Unterlagen gute Trefferquoten.

In Abbildung 3 versucht sich Paperwork an einem aus OpenOffice heraus generierten PDF. Dieses bietet eigentlich bessere Voraussetzungen als ein per Scanner eingelesenes Dokument, doch das Ergebnis zeigt viele nicht erkannte Wörter, hier bleibt die Markierung mit einem blauen Rahmen aus. Durch Eingrenzen des von der OCR-Engine bearbeiteten Bereichs unter Dokument | Bearbeiten lässt sich das Ergebnis oft optimieren (Abbildung 4), dabei startet allerdings jedes Mal auch ein neuer zeitraubender OCR-Lauf.

Abbildung 3: Textpassagen ohne blaue Umrandung wurden von der Paperwork-Texterkennung nicht als Text erfasst.
Abbildung 4: Durch gezieltes Eingrenzen des zu bearbeitenden Bereichs im Bild optimieren Sie die Texterkennung.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Heft-DVDs 08/2014
  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise. (Teil 1/2)
Kommentare

Infos zur Publikation

LU 02/2016: Alt-PCs flott machen

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Der Tipp der Woche

Schon gewußt?

14.11.2015

Auch unter Ubuntu 15.10 kann man wieder mit dem Startmedienersteller (alias Startup Disk Creator) ein Live-System auf einem USB-Stick einrichten. ...

Fehler des Startmedienerstellers von Ubuntu 15.10 umgehen

Aktuelle Fragen

Tails Update
Val Lerie, 11.01.2016 10:51, 0 Antworten
Hallo zusammen, updaten > update Speichern unter > Persistent nicht möglich, mit der Meldung;...
Recoll
Jürgen Heck, 20.12.2015 18:13, 4 Antworten
Wie kann man mit Recoll nach bestimmten Zeichen/Satzzeichen bzw. Zeichenkombinationen suchen, z....
Wings Platinum 4 auf Linux?
Bodo Steguweit, 18.12.2015 11:37, 4 Antworten
Hallo in die Runde ich nutze für meine Diashows Wings Platinum 4 als Diareferent. Arbeite jetzt...
Bandbreite regulieren
Georg Armani, 25.11.2015 16:50, 1 Antworten
Hallo, ich bin ein Neuling in Sachen Linux und hoffe auf Hilfe. Ich habe zwei Windows Rechner...
Windows 10 verhindert LINUX
Hans Wendel, 17.11.2015 17:47, 7 Antworten
Hallo alle, mit einem W10-Laptop (vorher war Win7) wollte ich LINUX ausprobieren. Alles, was ni...