Dokumentenmanagement mit Paperwork

Aus LinuxUser 10/2024

Dokumentenmanagement mit Paperwork

© Jaruek Chairak / 123RF.com

Ende des Chaos

Paperwork bekämpft schnörkellos die Papierflut im Büro und bietet einen einfachen Einstieg in die Welt des Dokumentenmanagements.

Wer kennt das nicht: Man sucht ein einige Jahre altes Dokument und fragt sich zunächst, aus welchem Jahr es wohl genau stammt. Dann greift man sich den oder die vermuteten Ordner heraus und die Suche beginnt. Fast so lang wie der Computer existiert der Wunsch nach einem papierlosen Büro. Es ist bisher ein Wunschtraum geblieben, aber es gibt einige Anwendungen, die das oben beschriebene Szenario wesentlich vereinfachen. Eines davon ist die Open-Source-Anwendung Paperwork, eine Software zur Digitalisierung, Verschlagwortung und Archivierung von Dokumenten und Fotos [1], die unter der GPLv3 steht.

Paperwork ist ein für Linux, MacOS und Windows verfügbares Dokumentenmanagementsystem (DMS), das auf dem GTK-Framework aufsetzt. Eine Android-Version ist in Planung, wird allerdings frühestens 2025 fertig. Die Anwendung liest Dokumente über Sane-kompatible Scanner und von Festplatten im Dateisystem ein und speichert sie als PDF. Die Texterkennung übernimmt die OCR-Software Tesseract, die Dokumente lassen sich somit im Volltext durchsuchen.

Eine Datenbank der unterstützten Scanner und ihrer Erfolgsquoten findet sich auf der Webseite des Projekts [2]. Auf der Festplatte als PDF vorliegende Dokumente sowie Fotos in den Formaten JPEG, PNG, GIF, BMP und TIFF lassen sich ebenfalls einscannen. In Paperwork abgelegte Dokumente kann man zur besseren Auffindbarkeit verschlagworten. Für die Archivierung kommt keine Datenbank zum Einsatz, die Dokumente liegen im Home unter papers/ und erlauben so bei Bedarf den direkten Zugriff (Abbildung 1).

Abbildung 1: Paperwork verzichtet auf eine Datenbank und legt die gespeicherten Dokumente direkt im Dateisystem ab. Das ermöglicht den direkten Zugriff auch dann, wenn Paperwork einmal nicht funktioniert oder eingestellt werden sollte.

Abbildung 1: Paperwork verzichtet auf eine Datenbank und legt die gespeicherten Dokumente direkt im Dateisystem ab. Das ermöglicht den direkten Zugriff auch dann, wenn Paperwork einmal nicht funktioniert oder eingestellt werden sollte.

Paperwork einrichten

Paperwork, das sich selbst als Personal Document Manager apostrophiert, eignet sich am ehesten für den privaten Bedarf, für Freiberufler und kleine bis mittlere Büros. Wir haben bereits im LU 01/2017 über Paperwork berichtet, und damals schnitt die Anwendung nicht sonderlich gut ab. Die Software ist in Python 3 geschrieben und lässt sich in fast allen Distributionen aus den Archiven heraus installieren. Daneben liegt sie als Flatpak [3] und Appimage [4] vor (Abbildung 2). Zu Redaktionsschluss aktuell war die Version 2.2.3. Achten Sie bei der Installation unbedingt darauf, eine Version der 2er-Serie zu installieren. Der Code zum Erstellen der Anwendung aus den Quellen steht auf Gitlab bereit [5]. Über ein zusätzliches Paket lässt sich Paperwork auch auf der Kommandozeile steuern (Abbildung 3).

Abbildung 2: Das Flatpak sollten Sie für Paperwork nur in Anspruch nehmen, wenn kein natives Paket verfügbar ist: Hier müssen Sie die Sane-Schnittstelle nämlich händisch einrichten.

Abbildung 2: Das Flatpak sollten Sie für Paperwork nur in Anspruch nehmen, wenn kein natives Paket verfügbar ist: Hier müssen Sie die Sane-Schnittstelle nämlich händisch einrichten.


Abbildung 3: Paperwork l&auml;sst sich in Teilen auch &uuml;ber die Kommandozeile steuern, wenn Sie das Paket <span class="ui-element">paperwork-shell</span> installieren.

Abbildung 3: Paperwork lässt sich in Teilen auch über die Kommandozeile steuern, wenn Sie das Paket paperwork-shell installieren.

In der Tabelle “Paperwork einrichten” finden Sie eine Anleitung zur Installation von Paperwork und der OCR-Software Tesseract für verschiedene Distributionen. Die Installation via Paketmanager sollten Sie der Einrichtung als Flatpak oder Appimage unbedingt vorziehen, da Sie sonst die Einbindung der Sane-Schnittstelle für den Scanner händisch vornehmen müssen.

 

Debian/Ubuntu

Fedora

Arch Linux

Paperwork

sudo apt install paperwork-backend paperwork-gtk-l10n-de

sudo dnf install paperwork

sudo pacman -S paperwork-gtk

Tesseract

sudo apt install tesseract-ocr-deu, sudo apt install tesseract-ocr-eng

sudo dnf install tesseract tesseract-langpack-deu

sudo pacman -S tesseract tesseract-data-deu

Sprachpakete

apt search ^tesseract

sudo dnf search tesseract

sudo pacman Ss tessearct

Paperwork lässt sich über das Paket paperwork-shell auch per Kommandozeile steuern.

Nach der Installation sehen Sie sich einer sehr aufgeräumten Oberfläche gegenüber (Abbildung 4). Die Entwickler folgen dabei dem Prinzip scannen und vergessen, was bedeutet, dass die Software Ihnen möglichst viele Schritte abnimmt. Dementsprechend leicht fällt auch die Einrichtung. Wir gehen davon aus, dass zu diesem Zeitpunkt ein Scanner am Rechner angeschlossen ist und Paperwork neu gestartet wurde. Dann wählen Sie zunächst aus dem Hamburger-Menü mit den drei Strichen oben links den Punkt Einstellungen aus.

Abbildung 4: Beim ersten Start von Paperwork sehen Sie sich einer &uuml;bersichtlichen Oberfl&auml;che gegen&uuml;ber, die mit ihren wenigen Bedienelementen ein schnelles Einarbeiten erlaubt.

Abbildung 4: Beim ersten Start von Paperwork sehen Sie sich einer übersichtlichen Oberfläche gegenüber, die mit ihren wenigen Bedienelementen ein schnelles Einarbeiten erlaubt.

Das Arbeitsverzeichnis belassen Sie am besten bei der Voreinstellung. Es wird bei jedem Start von Paperwork eingelesen und der Index entsprechend aktualisiert. In der Rubrik Scanner klicken Sie auf Gerät. Sofern Ihr Scanner kompatibel ist, erkennt das Programm ihn binnen weniger Sekunden und bindet ihn ein. Da alle modernen Scanner die Sane-Schnittstelle unterstützen, sollte es dabei keine Probleme geben. Unter Sprachen wählen Sie die Sprache(n) aus, für die Sie eine Tesseract-Lokalisierung installiert haben (Abbildung 5).

Abbildung 5: In den Einstellungen finden Sie neben der Scanner-Erkennung und der Aufl&ouml;sung auch die f&uuml;r die Texterkennung installierten Sprachen. Weitere unterst&uuml;tzte Sprachen zeigt bei Debian der Befehl <code>apt search ^tesseract</code>.

Abbildung 5: In den Einstellungen finden Sie neben der Scanner-Erkennung und der Auflösung auch die für die Texterkennung installierten Sprachen. Weitere unterstützte Sprachen zeigt bei Debian der Befehl apt search ^tesseract.

Falls Sie einen älteren Scanner nutzen oder keine Farbdarstellung benötigen, können Sie das Einlesen beschleunigen, indem Sie von Farbe auf Graustufen oder Schwarz-Weiß umstellen. Auf schwachen Rechnern können Sie die Erkennungsgenauigkeit von 300 dpi auf 200 dpi heruntersetzen. Das erhöht die Geschwindigkeit und verringert das Datenvolumen. Möchten Sie hingegen öfter Dokumente mit sehr kleinen Druckschriften scannen, bietet sich eine Erhöhung auf 400 dpi an. Verwenden Sie einen Einzugsscanner, können Sie Dokumentenstapel doppelseitig einscannen.

Erste Schritte

Nun sind Sie bereit für einen ersten Test. Nach einem Klick auf Importiere Datei(en) öffnet sich ein Auswahldialog für die Daten auf den Festplatten. Wählen Sie hier ein oder mehrere PDFs und Fotos und lassen Sie sie einlesen. Dabei erledigt im Hintergrund die OCR-Anwendung Tesseract die Texterkennung, was pro Dokument abhängig von der Größe im Normalfall 30 bis 120 Sekunden dauert. Paperwork zeigt die Dokumente anschließend links in der Seitenleiste chronologisch nach dem Zeitpunkt des Einlesens an. Da sie bereits indexiert sind, können Sie sofort mit im Dokument vorkommenden Begriffen nach ihnen suchen.

Wiederholen Sie nun den Vorgang, indem Sie wieder auf den Pfeil neben Importiere Datei(en) klicken und Scanne von Flachbett auswählen. Starten Sie anschließend den Scan-Vorgang. Das im Scanner eingelegte Dokument wird eingelesen und durchläuft ebenfalls die Texterkennung. Kopfüber eingelegte Dokumente dreht Tesseract automatisch.

Bevor Sie jetzt beginnen, weitere Dokumente einzulesen, sollten Sie sich Gedanken über die Struktur Ihres Dokumentenarchivs machen, denn sonst haben Sie bald ein ähnliches Chaos wie im Papierbüro. In Paperwork nutzen Sie zur Organisation Label. Diese erreichen Sie über das Symbol der Dokumenteneigenschaften eines geöffneten Dokuments in der Seitenleiste. Es befindet sich über dem Menü mit den drei Punkten (Abbildung 6).

Abbildung 6: Die Eigenschaften der einzelnen Dokumente passen Sie &uuml;ber die Seitenleiste an. Hier vergeben Sie beispielsweise ein Label f&uuml;r das Dokument oder ordnen es einem bestehenden Label zu.

Abbildung 6: Die Eigenschaften der einzelnen Dokumente passen Sie über die Seitenleiste an. Hier vergeben Sie beispielsweise ein Label für das Dokument oder ordnen es einem bestehenden Label zu.

Dort können Sie bei Bedarf zunächst das Datum vom Tag des Einlesens auf das Erstellungsdatum oder ein beliebiges anderes Datum ändern. Im Eingabefeld darunter geben sie den Titel des Labels ein, unter dem Sie das Dokument einsortieren wollen. Gegebenenfalls legen Sie noch eine Farbe für das Label fest. Anschließend klicken Sie auf das Pluszeichen und oben in der Leiste auf Anwenden. Um ein Dokument einem bereits bestehenden Label zuzuordnen, öffnen Sie die Dokumenteneigenschaften und klicken links in das leere Feld vor dem gewünschten Label. Ein Klick auf Anwenden in der oberen Leiste schreibt die Änderung auf die Platte und aktualisiert den Index.

Allerdings können Sie Label nicht auf Vorrat anlegen und dann zuordnen, die Erstellung und Vergabe ist immer an ein Dokument gebunden. Immerhin lernt Paperwork mittels KI hinzu: Haben Sie ausreichend viele Dokumente eingelesen und die entsprechenden Labels für zehn oder mehr davon gesetzt, versieht Paperwork neue Dokumente automatisch mit einem (meist) passenden Label.

In der Dokumentenliste steht über den eingelesenen Dokumenten stets eine leere, mit Neues Dokument überschriebene Seite. Sie dient dem System dazu, neue Dokumente aufzunehmen. Möchten Sie also ein neues Dokument anlegen, klicken Sie auf diesen Schalter. Um einem bestehenden Dokument eine oder mehrere Seiten hinzuzufügen, öffnen Sie vor dem Scan das betreffende Dokument. Eingelesene PDFs behandelt Paperwork grundsätzlich als ganzes Dokument. Sie können beim Einlesen auch einen gesamten Ordner samt Unterordnern angeben. Die Anwendung durchsucht ihn rekursiv nach PDFs, wobei sie bereits eingelesene Dateien ignoriert.

Finden und bearbeiten

Die Suche finden Sie oberhalb der Seitenleiste. Sie geben einen Begriff ein und Paperwork listet in Sekundenbruchteilen alle Dokumente auf, die den Suchbegriff enthalten. Dabei verwendet es eine unscharfe Suche, die beispielsweise nicht nur LinuxUser findet, sondern auch LinusUser. Das Icon rechts im Suchfeld führt zur erweiterten Suche. Hier legen Sie unter Verwendung verschiedener Suchoperatoren Begriffe für Ihre Suche fest (Abbildung 7).

Abbildung 7: Die erweiterte Suche erlaubt Verkn&uuml;pfungen von verschiedenen Suchoperatoren zum Filtern der Suchergebnisse.

Abbildung 7: Die erweiterte Suche erlaubt Verknüpfungen von verschiedenen Suchoperatoren zum Filtern der Suchergebnisse.

Weitere Bedienelemente finden Sie links und rechts am unteren Rand des Programmfensters. Auf der linken Seite gibt es neben Pfeilen zum Blättern in Dokumenten ein Icon, über das Sie überprüfen, welche Wörter die OCR eventuell nicht erkannt hat (Abbildung 8). Das kann etwa dann helfen, wenn ein Begriff aus einem Dokument in der Suche zu keinem Ergebnis führt. Sie können dort von der Einzel- zur Rasteransicht wechseln und in Seiten hineinzoomen.

Abbildung 8: Je nach Inhalt eines Dokuments kann es vorkommen, dass Tesseract nicht alle W&ouml;rter korrekt erkennt. Das &uuml;berpr&uuml;fen Sie &uuml;ber die Hervorhebungsfunktion.

Abbildung 8: Je nach Inhalt eines Dokuments kann es vorkommen, dass Tesseract nicht alle Wörter korrekt erkennt. Das überprüfen Sie über die Hervorhebungsfunktion.

Der Schalter Bearbeiten am rechten unteren Rand stellt rudimentäre Funktionen zum Beschneiden und Drehen von Dokumenten sowie zum automatischen Abgleich von Farbe, Helligkeit und Kontrast bereit, um eine möglichst gute Darstellung und Lesbarkeit zu erreichen.

Das Menü rechts daneben verbirgt hinter den drei Punkten weitere Funktionen zum Bearbeiten der Dokumente. Dort können Sie ausgewählte Textstellen kopieren, eine Seite innerhalb eines Dokuments oder in ein anderes Dokument verschieben, die Seite drucken oder sie exportieren (Abbildung 9). Letzteres klappt sowohl für einzelne Seiten als auch ganze Dokumente. Des Weiteren können Sie die Seite in den Zustand zurücksetzen, in dem sie eingefügt wurde, oder sie löschen. Sind Sie mit der Texterkennung nicht zufrieden, stoßen Sie die OCR noch einmal an.

Abbildung 9: Rechts unten erscheint nach Klick auf die drei Punkte ein Bearbeitungsmen&uuml; zum Drucken, Importieren und L&ouml;schen von Dokumenten.

Abbildung 9: Rechts unten erscheint nach Klick auf die drei Punkte ein Bearbeitungsmenü zum Drucken, Importieren und Löschen von Dokumenten.

Paperwork lässt sich über Dienste wie Nextcloud, Syncthing und andere synchronisieren. Dabei sollten die verwendeten Dienste unter Ihrer Kontrolle stehen, da Paperwork die Daten nicht verschlüsselt. Dienste wie Dropbox oder OneDrive eignen sich deshalb nur für weniger vertrauliche Dokumente. Um auf einem Mehrbenutzersystem Ihre Dokumente zu schützen, verschlüsseln Sie am besten Ihr gesamtes Home-Verzeichnis, mindestens aber die Verzeichnisse ~/papers und ~/.local/share/paperwork2.

Fazit

Paperwork erweist sich vor allem im privaten Bereich und in kleineren Büros als große Hilfe beim papierlosen Büro. Das wichtigste Merkmal, das schnelle Wiederfinden abgelegter Dokumente, funktioniert einwandfrei. Die Verschlagwortung reicht für den anvisierten Nutzerkreis aus. Zudem lässt sich das kompakte Dokumentenmanagementsystem aufgrund seiner Einfachheit schnell beherrschen. Es fehlen allerdings Apps für Mobilgeräte und eine native Synchronisation. Auf unserem Wunschzettel steht daneben ganz oben die Möglichkeit, eine Liste mit Labeln vorab erstellen zu können. Das ist aber Meckern auf hohem Niveau.

Paperwork verfügt über ein hervorragendes Handbuch in deutscher Sprache, das Sie über das Hamburger-Menü unter Hilfe | Handbuch erreichen. Fehler können Sie über dasselbe Menü unter Fehler melden auf zwei Arten einreichen. Weitere Unterstützung bietet das Community-Forum [6]. Beim Autor befindet sich Paperwork bereits länger im Einsatz, ohne dass gravierende Fehler zutage getreten sind. Wollen Sie dem papierlosen Büro schnell und einfach näher kommen, sollten Sie Paperwork unbedingt in die engere Wahl ziehen. (jlu)

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF
LinuxUser 10/2024 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben