Paperless-NGX erlaubt das schnelle Digitalisieren und Archivieren von Dokumenten. Es läuft vorzugsweise auf einem Home-Server als Docker-Container.
Bei Dokumentenmanagementsystemen (DMS) handelt es sich meist um datenbankgestützte Anwendungen, die sich um die Organisation von elektronischen Dokumenten kümmern. Ziel ist es, Dokumente digital, zentral und gut durchsuchbar aufzubewahren. DMS gibt es viele, die Mehrzahl davon ist proprietär und für den privaten Bedarf oder kleine Büros überdimensioniert und zu teuer. Platzhirsche sind hier unter anderem Microsoft Sharepoint und DocuWare.
Aber auch im Bereich Open Source finden sich DMS für jeden Bedarf. Ein weiterer Artikel in dieser Ausgabe stellt als Einstieg zum papierlosen Büro das Einzelplatz-DMS Paperwork vor, das für den privaten Bereich oder im kleinen Unternehmen oft ausreicht. Am anderen Ende stehen Systeme wie Papermerge [1], das als Multiuser-System auch Funktionen wie Dokumentenversionierung bietet. Noch flexibler, aber auch wesentlich komplexer fällt Mayan EDMS [2] aus.
Zwischen diesen Extremen liegt das weitverbreitete Open-Source-DMS Paperless-NGX (Abbildung 1), das seit etwas mehr als zwei Jahren auf den Vorgängern Paperless und Paperless-NG aufbaut. Paperless-NGX [3], das wir im Folgenden mit Paperless abkürzen, steht derzeit in Version 2.11.3 bereit. Im Unterschied zu Paperwork wird Paperless nicht im Host-Dateisystem installiert, sondern läuft als Docker-Container auf einem Home-Server oder NAS. Es unterstützt hardwareseitig die Architekturen AMD64, ARM und ARM64.

Abbildung 1: Der erste Start in die übersichtliche Oberfläche von Paperless bietet eine kurze Tour und einen Verweis auf die englische Dokumentation.
Was kann Paperless?
Paperless hat im Gegensatz zu dem in einer halben Stunde erlernbaren Paperwork aufgrund des erweiterten Leistungsumfangs eine etwas steilere Lernkurve. Es empfiehlt sich, den allgemeinen Teil der Dokumentation zu lesen, bevor Sie zur Praxis übergehen. So lernen Sie das Zuordnen der Metadaten wie Tags (Abbildung 2), Korrespondenten und Dokumententypen kennen und erstellen so für Ihren Bedarf ein Konzept, nach welchem Schema Sie Ihre Dokumente speichern möchten. Um Überschneidungen mit Korrespondenten und Dokumententypen zu vermeiden, sollten Sie mit Tags eher sparsam umgehen. Als Korrespondent bezeichnet Paperless den Ersteller eines Dokuments.

Abbildung 2: Wählen Sie links in der Leiste den Reiter Tags, erhalten Sie eine Liste der angelegten Stichwörter und sehen, welchen Dokumenten sie zugeordnet sind.
Die Installation gelingt am einfachsten mit Docker-Compose, das Vorgehen beschreibt die Github-Seite des Projekts [4]. Eine Alternative dazu bietet Portainer [5], das die Installation von Docker-Containern vereinfacht. Einige NAS- oder Home-Server wie Unraid, Synology oder CasaOS bieten eine Installation von Paperless mit wenigen Mausklicks an. Unter Linux lässt sich Paperless auch direkt auf dem Host-Rechner installieren, eine Anleitung dazu finden Sie ebenfalls in der hervorragenden Dokumentation [6]. Auch ein Raspberry Pi mit angeschlossener SSD eignet sich sehr gut für die Dokumentenablage mit dieser Software.
Für Android gibt es von einem Drittanbieter die App Paperless Mobile, für iOS steht QuickScan bereit. Mit diesen Apps scannen Sie Dokumente mit der Kamera des Smartphones oder Tablets ein und laden sie in Paperless hoch. Ist bei Paperwork das Einscannen von einem am Host angeschlossenen Flachbett- oder Einzugsscanner ein Kinderspiel, so fällt das mit Paperless wegen des Containers ein wenig komplizierter aus. Eine Anleitung für das Projekt Scan-to-Paperless finden Sie auf Github [7].
Am einfachsten, aber auch am umständlichsten scannen Sie die Dokumente mit dem am Host angeschlossenen Scanner und ziehen Sie dann per Drag & Drop auf die Paperless-Oberfläche. Eleganter gelingt das mit der automatischen Methode über einen Netzwerk-Scanner. Er korrespondiert direkt mit dem Eingangsordner von Paperless und legt die Dokumente nach einem Knopfdruck am Scanner selbst ab. Dazu bedarf es jedoch einiger Vorarbeit, und es hilft, wenn Sie das System zunächst etwas besser kennenlernen.
Paperless bedienen Sie über eine sauber programmierte Weboberfläche, die sich auch an die Geometrie von Tablets oder Smartphones anpasst. Das DMS liest Dokumente oder Bilder in den Formaten PDF, JPEG, PNG oder TIFF per Scanner sowie einfache Textformate wie TXT oder MD per Drag & Drop auf die Oberfläche ein und verarbeitet sie auf vielfache Weise. Die Software erstellt aus der Vorlage ein archivierbares PDF/A-Dokument. Sollte Ihre Paperless-Instanz irreparablen Schaden erleiden, sind Sie damit in der Lage, die gespeicherten Dokumente jederzeit eins zu eins samt Dateinamensmuster in andere Anwendungen zu überführen.
Über die beiden Plugins Apache Tika und Gotenberg (Abbildung 3) lassen sich auch Office-Formate wie Word, Excel, Powerpoint, deren LibreOffice-Äquivalente und E-Mails im EML-Format einlesen und als PDF speichern (Abbildung 4). Unraid erleichtert Ihnen das Einbinden der Plugins erheblich, da sie ebenfalls bereits installationsfertig als eigene Docker-Container vorliegen. Etwas Nacharbeit fällt aber noch an. Die einzelnen Schritte lesen Sie im Kasten “Tika und Gotenberg bereitstellen” nach. Fertige Docker-Compose-Dateien mit verschiedenen Datenbanken sowie mit und ohne die beiden Plugins finden Sie auf Github [8].

Abbildung 3: Tika und Gotenberg stehen in Unraid in an Paperless angepasster Form bereit. Etwas individuelle Nacharbeit ist trotzdem notwendig.

Abbildung 4: Sind die zusätzlichen Variablen in Unraid oder der verwendeten Docker-Compose-Datei gesetzt, steht dem Einlesen von Office-Formaten nichts mehr im Weg.
Paperless holt Dokumente auf Wunsch automatisiert vom Scanner oder aus E-Mails ab, klassifiziert sie nach Typen und sucht im Volltext nach ähnlichen Dokumenten. Darüber hinaus sortiert es Daten nach Absendern, versieht sie mit Tags und ordnet ihnen Dokumententypen zu. Nach dem Hochladen indexiert die Applikation Dokumente per OCR-Engine im Hintergrund automatisch und speichert sie in einer Datenbank. Im Regelfall reicht hier SQLite völlig aus.
Für OCR kommt im Hintergrund die leistungsfähige Software Tesseract [9] zum Einsatz. Sobald Sie einige Dokumente gespeichert haben, lernt Paperless mittels KI das automatische Tagging für Korrespondenten, Tags, Ablageorte und Dokumententypen. Nach unserer Erfahrung dauert es einige Wochen und einige Hundert hochgeladene Referenzdokumente, bis das halbwegs zuverlässig funktioniert. So lange müssen Sie die Tags eingelesener Dokumente manuell korrigieren.
Tika und Gotenberg bereitstellen
Nach der Installation der beiden Container in Unraid editieren Sie den Paperless-Container, indem Sie drei Variablen hinzufügen. Danach verarbeitet Paperless auch Office-Formate sowie E-Mails (EML) und speichert sie als PDF ab. Wenn Sie die Software mit Docker Compose nutzen, fügen Sie die Variablen aus Listing 1 dort ein.
Listing 1
Variablen
PAPERLESS_TIKA_ENABLED: 1 PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000 PAPERLESS_TIKA_ENDPOINT: http://tika:9998 gotenberg: image: thecodingmachine/gotenberg restart: unless-stopped environment: DISABLE_GOOGLE_CHROME: 1 tika: image: apache/tika restart: unless-stopped<C>
Erster Blick
Nach der Installation und dem ersten Einloggen sehen Sie eine übersichtliche Oberfläche mit Seitenleisten links und rechts (Abbildung 5). Die linke lässt sich bei Bedarf auch einklappen. Sie enthält die verfügbaren Ansichten und Funktionen. Die rechte Leiste zeigt die Statistik und enthält ein Feld zum Hochladen von Dokumenten. Hier können Sie Dateien per Drag & Drop ablegen oder über Dateien auswählen auch mehrere auswählen. Ein Fortschrittsbalken informiert Sie über den Upload und die Verarbeitung durch die OCR, was je nach Leistung des Rechners und Umfang des Dokuments zwischen wenigen Sekunden und einigen Minuten dauert.

Abbildung 5: Diese Startseite wurde so konfiguriert, dass sie die zuletzt eingelesenen Dokumente anzeigt.
Zur Übersichtsanzeige der Dokumente stellt die Oberfläche in der Kopfleiste drei Modi bereit: Liste, Thumbnail und Thumbnail mit Text. Ebenfalls in der Kopfleiste zeigt die Dokumentenansicht eine Suchleiste, die sich im Ausklappmenü auch als erweiterte Suche nutzen lässt. Daneben finden sich Filteroptionen unter anderem für Tags, Korrespondenten, Dokumententypen, Speicherpfad, Datum und Berechtigungen. Außer in der Listenansicht öffnet das Berühren des Augen-Icons oder der Aufschrift Anzeigen mit dem Mauszeiger einen Abriss des Inhalts als Popup. Filter- und Suchvorgänge lassen sich unter einem Namen speichern, Sie müssen sie entsprechend nicht jedes Mal aufs Neue erstellen.
Auf der Startseite rechts in der Statistik erscheinen die Dokumente inklusive ihrer Zeichenanzahl und weiteren Angaben. Der Bereich in der Mitte bleibt bislang leer. Das liegt daran, dass dieser Ihnen zur individuellen Konfiguration zur Verfügung steht. Uns erschien es sinnvoll, dort zuerst die zuletzt eingegangenen Dokumente einzublenden.
Startseite
Dazu klicken Sie in der linken Leiste zunächst auf Tags und dann oben rechts auf Erstellen. Dort legen Sie einen Tag an. Wichtig ist, dass Sie den Haken bei Posteingangs-Tag setzen, damit alle neuen Dokumente automatisch dieses Tag erhalten. Anschließend wechseln Sie zu Dokumente und oben auf Tags. Hier wählen Sie Posteingang aus und klicken anschließend oben ganz rechts auf Ansicht | Speichern als?. Hier vergeben Sie den Namen Posteingang oder den von Ihnen beim Tag vergebenen Namen und haken beide Optionen an (Abbildung 6).

Abbildung 6: Ein geöffnetes Dokument erlaubt rechts das Bearbeiten in verschiedenen Reitern. So gewährt Details beispielsweise Zugriff auf Titel, Tags und vieles andere.
Wenn Sie anschließend Dokumente hochladen, erscheinen diese auf der Startseite. Nach einer eventuellen Bearbeitung wie der Vergabe anderer Tags, weiterer Zuordnungen oder dem Entfernen des Posteingangs-Tags verschwinden die Dokumente von der Startseite. Sie finden sie künftig unter Dokumente. Optional lässt sich die Startseite auch anders gestalten, aber uns erschien diese Anzeige sinnvoll: So sehen Sie gleich, welche Dokumente noch eventueller Bearbeitung bedürfen.
Je nachdem, welchen Abschnitt Sie aus der linken Spalte aktivieren, ändern sich in der oberen Leiste die angebotenen Optionen. Unter Tags sehen Sie alle bisher erstellten Schlagwörter und erstellen über den Schalter oben rechts neue. Dabei dienen Tags nicht nur zum Kennzeichnen von Dokumenten, sondern bei Bedarf auch deren Zuordnung zur bearbeitenden Person. So lassen sich über die Berechtigungen eines Tags beispielsweise dem User Anita aus der Buchhaltung alle Dokumente zuordnen, die die Tags Rechnungen, Angebote und Steuer 2024 zugeordnet haben (Abbildung 7).

Abbildung 7: Beim Erstellen von Tags wählen Sie entweder die voreingestellte Automatik über die KI oder legen, wie im Bild, den Zuweisungsalgorithmus selbst fest. Darunter definieren Sie die Berechtigungen des Tags.
E-Mails einlesen
Eine wichtige Funktion von Paperless ist das automatische Einlesen von E-Mails. Dazu sind zwei Schritte notwendig, die Sie sehen, wenn Sie links in der Leiste auf E-Mail klicken. In E-Mail-Konten (Abbildung 8) wählen Sie eines Ihrer Konten aus und nehmen die entsprechenden Einstellungen vor. Danach sollte ein Klick auf Testen eine Verbindung zum Mailserver anzeigen. Es lassen sich auch mehrere Konten anlegen (Abbildung 9)

Abbildung 8: Damit Paperless das automatische Einlesen von E-Mails beherrscht, definieren Sie zunächst eines oder mehrere Konten.

Abbildung 9: In einem zweiten Schritt legen Sie die Regeln fest, nach denen die Software E-Mails zum Einlesen auswählt.
In den E-Mail-Regeln legen Sie genau fest, von welchem Absender an welchen Empfänger und bei welchem Betreff das Tool E-Mails importieren soll. Auch das Handhaben von Anhängen definieren Sie im Detail. Nach dem Speichern des Regelwerks sollten entsprechende E-Mails in Paperless erscheinen. Bedenken Sie dabei, dass die Applikation Ihre Mail-Konten in Intervallen von 10 Minuten scannt. Eine ausführliche und bebilderte Anleitung finden Sie als Teil 11 einer sehr ausführlichen Dokumentation [10].
TIPP
Ein Teil der Korrespondenz des Autors hat mit dem Finanzamt zu tun. Damit sie juristisch unangreifbar bleibt, sollten Sie mit Bedacht von den Berechtigungen für Dokumente Gebrauch machen: Diese müssen nämlich unter anderem unveränderlich sein.
Fazit
Mit Paperless-NGX auf Ihrem Home-Server bleiben Ihre Dokumente unter Ihrer Kontrolle. Einer der größten Vorteile eines DMS gegenüber der Ablage im Dateisystem besteht darin, dass Sie nicht entscheiden müssen, in welchen Ordner ein Dokument gehört, sondern Sie es via Tags mehreren Bereichen zuordnen. Paperless hat eine Lernkurve, die sich nicht an einem Tag erklimmen lässt. Gehen Sie beim Einrichten behutsam vor und lesen Sie Schritt für Schritt die offizielle englischsprachige Dokumentation [11].
Um zu sehen, ob die Software in Ihr Anforderungsprofil passt, lässt sich Paperless vorab als Online-Demo testen [12]. Außerdem gibt es eine große Anzahl an Informationen zu Paperless auf Webseiten oder als Youtube-Videos im Netz. Wenn Sie sich für Paperless entscheiden, dann sollten Sie sowohl das automatisierte Scannen als auch das automatisierte Einlesen von E-Mails nutzen, sonst ergibt der zu leistende Aufwand nur wenig Sinn. Funktionieren aber erst einmal alle Automatismen inklusive des KI-gestützten Taggings, ist die Effizienz der Software nur schwer zu schlagen. (tle)
Glossar
-
OCR
-
Optical Character Recognition, die automatisierte Text- und Schrifterkennung in Bildern und PDF-Dateien.
Infos
-
Papermerge: https://papermerge.com
-
Mayan EDMS: https://www.mayan-edms.com
-
Paperless-NGX: https://docs.paperless-ngx.com
-
Installationsanleitung: https://github.com/paperless-ngx/paperless-ngx?tab=readme-ov-file#getting-started
-
Portainer: https://gnulinux.ch/portainer-oder-wie-man-docker-schön-macht
-
Host-Installation: https://docs.paperless-ngx.com/setup/#bare_metal
-
Docker-Compose-Dateien: https://github.com/paperless-ngx/paperless-ngx/tree/main/docker/compose
-
Tesseract: https://de.wikipedia.org/wiki/Tesseract_(Software)
-
E-Mails archivieren: https://digital-cleaning.de/index.php/paperless-ngx-teil-11-mail-abruf-mit-vielen-extras/
-
Paperless-Dokumentation (Englisch): https://docs.paperless-ngx.com
-
Paperless-Online-Demo: https://demo.paperless-ngx.com





