Scannen und OCR mit Gscan2pdf

Vom gedruckten Wort bis zum digitalen Dokument in nur wenigen Schritten: Das Programm Gscan2pdf macht’s möglich, weil es mehrere Tools unter einem Dach vereint.

Gscan2pdf [1] arbeitet wie moderne Fotokopierer, die neben dem Drucken und Scannen beziehungsweise dem Erstellen von PDFs oft über eine Texterkennung verfügen. Im Wesentlichen gilt es drei Aufgaben zu bewältigen:

eine oder mehrere Seiten als Bilder einscannen,
diese zu einer oder mehreren Dateien zusammenzufassen,
und bei Bedarf die Ergebnisse um einen OCR-Layer ergänzen.

Der modulare Aufbau der Software (Abbildung 1) ermöglicht es im Prinzip, alle Komponenten durch Alternativen zu ersetzen, die Ihnen für die eine Aufgabe besser geeignet erscheinen. Die Software ermöglicht es zusätzlich, in jeden Bearbeitungsschritt einzugreifen oder den Prozess an einer beliebigen Stelle des Workflows zu starten.

Abbildung 1: Der modulare Aufbau von Gscan2pdf ermöglicht den Austausch einzelner Komponenten.

Installation

Normalerweise sorgt der zur Distribution gehörende Paketmanager dafür, dass alle von Gscan2pdf benötigten Tools installiert sind. Das sollten neben Sane mindestens noch Imagemagick, Tesseract-ocr und Unpaper sein. Die Xdg-utils erweitern die Funktionalität so, dass die Sotfware bei Bedarf direkt Mails versendet; Djvulibre stellt zusätzlich das DjVu-Format [2] bereit.

Praxis

Die hier betrachtete Version 0.9.29 entspricht der aus den aktuellen Ubuntu-Repositories. Vom Hauptfenster der Applikation (Abbildung 2) erreichen Sie die wichtigsten Funktionen über Schaltflächen. In den Menüs stehen zusätzliche Funktionen bereit, mit denen Sie die einzelnen Bearbeitungsschritte starten oder Einstellungen vornehmen.

Abbildung 2: Alle wichtigen Funktionen von Gscan2pdf erreichen Sie über Schaltflächen im Hauptfenster.

Scannen

Beim Scannen öffnet dazu das in Abbildung 3 gezeigte Fenster. Vieles dort erinnert zu Recht an Xsane. Über die Auswahl Gerät wählen Sie aus, von welcher Quelle das Programm die Daten erhält, also normalerweise von einem Scanner. Diesen sollten Sie anschalten, bevor Sie Gscan2pdf starten. Gegebenenfalls suchen Sie über Rescan for devices nach neuen Eingabegeräten.

Abbildung 3: In einem etwas unübersichtlichen Dialog legen Sie die grundlegenden Optionn zum Scannen fest.

In den Seiteneinstellungen legen Sie fest, ob Sie dem Programm die Seiten per automatischem oder über manuellen Einzug übergeben. Dabei haben Sie die Möglichkeit, die Anzahl von automatischen Seiteneinzügen bei Scannern zu begrenzen, die das unterstützen. Der Punkt Erweiterte Seitennummerierung erlaubt es, vom regulären Nummerierungsschema abweichende Seitennummern zu vergeben oder mit einer Startseite anzufangen.

Unter Dokument teilen Sie der Applikation mit, ob Sie eine Einzelseite oder Vorder- und Rückseite (Doppelseitig) nacheinander scannen möchten. Dies ist ebenfalls nur bei Scannern mit automatischem Einzug (und Duplexfunktion) relevant. Die Optionen in der Gruppe Nachbearbeitung legen fest, wie Gscan2pdf mit den eingescannten Bildern verfährt. Die Option Drehen erweist sich als sinnvoll, um vernünftige PDFs zu erzeugen; für das OCR ist ein korrektes Ausrichten normalerweise unerlässlich.

Verbessern

Als nützlich erweisen sich in der Praxis die Optionen unter Bilder bereinigen: Damit starten Sie das Zusatzprogramm Unpaper, um störende Ränder zu entfernen, Rauschen und Verzerrungen zu korrigieren, Schwellwerte für die Schrift einzustellen (Abbildung 4). Hier gilt es, alle möglichen Einstellungen (insbesondere auch die im Filter-Reiter) einmal durchzusehen und gegebenenfalls auszuprobieren.

Abbildung 4: Mit Unpaper sorgen Sie dafür, dass die Scans beispielsweise von Buchseiten akkurat in der Mitte der Seite liegen.

Wie viel die hier vorhandenen Einstellungen wirklich bringen, hängt wesentlich von den zu bearbeitenden Bildern ab. Bei schlechten Bilder empfiehlt es sich manchmal, Unpaper manuell anzuwenden, da das Programm wesentlich mehr Möglichkeiten bietet, als der Dialog in Gscan2pdf anzeigt [3].

Unpaper liest nur PGM-, PPM- und PBM-Dateien, bearbeitet diese und schreibt das Ergebnis in eine PNM-Datei. Bei Bedarf behelfen Sie sich mit Convert aus dem Imagemagick-Paket, um das gewünschte Format zu erzeugen.

Das Modul für die Einstellungen zum Nachbearbeiten bietet derzeit keine Vorschau, sodass oft unklar bleibt, wie sich Änderungen an den Einstellungen auswirken. Das führt insbesondere in Zusammenhang mit der Texterkennung dazu, dass es häufig vieler Versuche bedarf, um gute Ergebnisse zu erzielen. Der Entwickler denkt über eine bessere Lösung nach. Eine entsprechende Feature-Anfrage liegt vor. Alternativ verwenden Sie das Unpaper-GUI (Abbildung 5), um ein möglichst optimales Parameter-Set zu finden (siehe Kasten “Das Unpaper-GUI”).

Abbildung 5: Die grafische Oberfläche von Unpaper erlaubt es, sehr einfach ein optimales Parameter-Set für das Nachbearbeiten von Scans zu ermitteln.

Das Unpaper-GUI

Diese Oberfläche [4] für Unpaper rufen Sie via unpap im Terminal auf. Sie bietet die Möglichkeit, viele, aber nicht alle Optionen von Unpaper zu steuern. Der eigentliche Vorteil des Tools liegt in der in der Vorschau auf das Ergebnis. So stellen Sie ungefähr fest, welche Resultate Sie mit veränderten Parametern erzielen und welche Werte das Ergebnis verbessern.

Im linken Fenster zeigt das Programm die eingelesenen Daten, rechts das mit den aktuellen Einstellungen erzeugte Ergebnis. Das ermöglicht es, eines der beiden Ausgabefenster mit einem Parameter-Set zu belegen und im anderen ein neues Set einzustellen. Live preview bewirkt, dass neue Parameter immer direkt eine neue Ausgabe erzeugt.

Im Log-Reiter zeigt das GUI die tatsächlich verwendeten Befehlszeilen. Das erweist sich als nützlich beim Bearbeiten größerer Mengen von Scans. Erfolgreich angewendete Parameter-Sets speichern Sie über Save unpaper settings…, mittels Load unpaper setting… holen Sie diese wieder hervor.

Neben dem Scannen verfügt Gscan2pdf über die Möglichkeit, Bilder aus anderen Quellen und Dank Imagemagick auch in anderen Formaten zu verarbeiten. Dies erfolgt über den Import im Menü Datei. Da Unpaper nur mit PNM-Formaten zusammenarbeitet, bietet es sich an, Bilder in diesem Format bereitzustellen. Alle anderen gängigen Formate wandelt Gscan2pdf bei Bedarf um. Das ermöglicht beispielsweise auch das Scannen mit einer Kamera [5].

Nach dem Einlesen der Bilder und noch vor dem Bearbeiten mit Unpaper zeigt Gscan2pdf Thumbnails der Seiten in der Seitenleiste an. Diese bietet über ein Kontextmenü Funktionen zum Modifizieren der Liste (etwa zum Umsortieren, Löschen oder Ersetzen missratener Scans) an. Die Reihenfolge der Seiten passen Sie bei Bedarf auch direkt via Drag & Drop an. Neu nummerieren (Menü Bearbeiten) versieht die Seiten nach dem Umsortieren mit neuen, passenden Seitenzahlen.

Möglicherweise stehen nicht alle beschriebenen Funktionen und Optionen bei Ihrem Scanner bereit, oder der von Ihnen eingesetzte Treiber nicht unterstützt. In diesem Fall lassen sich die entsprechenden Optionen nicht aktivieren und erscheinen ausgegraut.

Wichtige Tastenkombinationen

Tasten	Funktion
[Strg]+[I]	Importieren
[Strg]+[O]	Datei öffnen
[Strg]+[N]	Neues Projekt beginnen
[Strg]+[G]	Scannen
[Strg]+[S]	Speichern
[Strg]+[E]	Als EMail versenden
[Strg]+[Q]	Beenden
[Strg]+[Z]	Undo
[Strg]+[Umschalt]+[Z]	Redo
[Strg]+[X]	Seite ausschneiden
[Strg]+[C]	Seite kopieren
[Strg]+[V]	Seite einfügen
[Strg]+[R]	neu nummerieren
[+]	Ansicht vergrößern
[-]	Ansicht verkleinern
[Strg]+[Umschalt]+[R]	um 90 Grad drehen (im Uhrzeigersinn)
[Strg]+[Umschalt]+[F]	um 180 Grad drehen
[Strg]+[Umschalt]+[C]	um 290 Grad drehen (im Uhrzeigersinn)

Problemfall OCR

Die Optical Character Recognition (OCR) gehört unter Linux zu den leidigen Themen. Um Dokumente sicher textuell zu erfassen, braucht es Fehlerraten unter 1 Promille. Das schaffen auch bei guten Eingabedateien selbst die besten Programme unter Linux kaum. Bei den üblichen Wald-und-Wiesen-Scans, hergestellt mit den typischen (Home-)Office-Geräten, fallen die Ergebnisse erheblich schlechter aus.

Gscan2pdf bietet mindesten zwei OCR-Programme alternativ an: Gocr und Tesseract-ocr. Letzteres setzt Google für seine umstrittenen Bookscans (http://books.google.com) ein und gehört damit zu den leistungsfähigeren Programmen. Bei idealen Scans mit einer ausreichend hohen Auflösung, guten Kontrasten und geraden Zeilenlauf erzielen Sie gute Ergebnisse. Aber auch nur dann – bei realen Scans sieht es deutlich schlechter aus. Falls installiert, bietet Gscan2pdf auch Ocropus oder Cuneiform als OCR-Engines verwenden, die aber im Test ebenfalls keine guten Ergebnisse lieferten.

Als Faustregel gilt: Mit Auflösungen unter 300 DPI erzielen Sie wohl in den seltensten Fällen ein brauchbares Ergebnis. Die neuste Gscan2pdf-Version ermöglicht es aber zumindest, vereinzelt auftretende OCR-Fehler manuell durch ein Mausklick in das OCR-Ausgabefenster zu korrigieren.

Speichern

Nach dem Abschluss aller Arbeiten schreibt Gscan2pdf die aus den Bilder erzeugten Dokumente auf Wunsch in unterschiedlichen Formaten. Neben PDF stehen dabei DJVU, Postscript, GIF, TIFF und JPEG bereit. Bei einigen Formaten erlaubt die Applikation die Eingabe von Metadaten (Abbildung 6).

Abbildung 6: Bei der Ausgabe im PDF-Format haben Sie die Möglichkeit, Metadaten in das Dokument zu schreiben.

Nicht alle eignen sich gleichermaßen für das Speichern mehrseitiger Scans, so erzeugen GIF, PNG und PNM pro Seite eine neue (nummerierte) Datei. Bei PDF, DJVU, Postscript und TIFF schreibt Gscan2pdf zwar alle Seiten in Datei. Das bereitet aber vielen Programmen Probleme, derartige TIFF-Files korrekt anzuzeigen. Über Text speichern Sie die mittels OCR erkannten Texte und Sitzung erzeugt eine Gzip-komprimierte Datei mit aus den Bildern generierten PNMs. Dieses Archiv liest Gscan2pdf zu einem späteren Zeitpunkt bei Bedarf erneut ein, und die Daten stehen dann zum Weiterverarbeiten bereit.

Einstellungen

Der Dialog zu den Einstellungen (Abbildung 7) fällt überraschend umfangreich aus: Unter Frontend wählen Sie zum Beispiel eine Alternative zum voreingestellten Scanadf aus. Wichtig ist dies, wenn beim Abspeichern Probleme auftreten. Dann hilft es normalerweise, auf Scanimage-perl umzustellen.

Blank threshold und Dark threshold definieren die zum Bereinigen eines Scans benötigten Schwellwerte.” width=”300″ height=”287″ /> Abbildung 7: Über Blank threshold und Dark threshold definieren die zum Bereinigen eines Scans benötigten Schwellwerte.

Von den anderen in dem Dialog vorhandenen Optionen sind die Schwellen (Blank und Dark threshold) am wichtigsten. Unter OCR output stellen Sie ein, wie Gscan2pdf die OCR-Texte in das Dokument aufnimmt. Die Voreinstellung Replace überlagert das Bild mit dem extrahierten Text. So ganz funktioniert das oft nicht, was bei der Textsuche in den erzeugten PDFs zu etwas verwirrenden Ergebnissen führt. Aber die anderen Modi führten in den Tests ebenfalls nur zu teilweise brauchbaren Ergebnissen.

Fazit

Gscan2pdf gehört zu den Linux-Tools, die ihren festen Platz auf jedem System haben sollten – einfach und effektiv zu bedienen und universell zu einsetzen. Das Programm spielt seine Stärken vor allem aus, wenn es darum geht, mehrere (Text-)Seiten zu einem Dokument zusammenzufassen. Bleibt die Schwachstelle OCR: Hier ist zu hoffen, dass die Entwicklung von Tesseract zügig voranschreitet und die Software künftig mehr leistet.

Warum das als Perl-Script umgesetzte Programm im Test immer mal wieder hing, blieb unklar. In diesen Fällen hilft es aber immer, gescannte Bilder erneut einzulesen und dann nochmals zu bearbeiten. Auch dürfen Sie weder allzu ungeduldig sein, noch mit leistungsschwachen Netbooks schnelle Ergebnisse erwarten.

Glossar

DjVu: Bei DjVu (sprich: Déjà-vu) handelt es sich um ein Format für gescannte Dokumente, das eine bessere Kompression als beispielsweise PDF erlaubt und eine spezielle Textebene für die Textsuche unterstützt. Viele Viewer, wie etwa Evince (Gnome) oder Okular (KDE), unterstützen das Format.

Infos

[1] Gscan2pdf: http://gscan2pdf.sourceforge.net

[2] DjVu: http://djvu.org

[3] Unpaper: http://unpaper.berlios.de

[4] Einfaches GUI für Unpaper: http://wiki.ubuntuusers.de/unpaper-GUI

[5] Scannen mit der Kamera: http://www.instructables.com/id/Quickly-Scan-a-Textbook-With-a-Camera/