AA_teamwork_hoefl_sxc_1215912.jpg

© Hoefl, sxc.hu

Teamwork

Scannen und OCR mit Gscan2pdf

10.09.2010
Vom gedruckten Wort bis zum digitalen Dokument in nur wenigen Schritten: Das Programm Gscan2pdf macht's möglich, weil es mehrere Tools unter einem Dach vereint.

Gscan2pdf [1] arbeitet wie moderne Fotokopierer, die neben dem Drucken und Scannen beziehungsweise dem Erstellen von PDFs oft über eine Texterkennung verfügen. Im Wesentlichen gilt es drei Aufgaben zu bewältigen:

  • eine oder mehrere Seiten als Bilder einscannen,
  • diese zu einer oder mehreren Dateien zusammenzufassen,
  • und bei Bedarf die Ergebnisse um einen OCR-Layer ergänzen.

Der modulare Aufbau der Software (Abbildung 1) ermöglicht es im Prinzip, alle Komponenten durch Alternativen zu ersetzen, die Ihnen für die eine Aufgabe besser geeignet erscheinen. Die Software ermöglicht es zusätzlich, in jeden Bearbeitungsschritt einzugreifen oder den Prozess an einer beliebigen Stelle des Workflows zu starten.

Abbildung 1: Der modulare Aufbau von Gscan2pdf ermöglicht den Austausch einzelner Komponenten.

Installation

Normalerweise sorgt der zur Distribution gehörende Paketmanager dafür, dass alle von Gscan2pdf benötigten Tools installiert sind. Das sollten neben Sane mindestens noch Imagemagick, Tesseract-ocr und Unpaper sein. Die Xdg-utils erweitern die Funktionalität so, dass die Sotfware bei Bedarf direkt Mails versendet; Djvulibre stellt zusätzlich das DjVu-Format [2] bereit.

Praxis

Die hier betrachtete Version 0.9.29 entspricht der aus den aktuellen Ubuntu-Repositories. Vom Hauptfenster der Applikation (Abbildung 2) erreichen Sie die wichtigsten Funktionen über Schaltflächen. In den Menüs stehen zusätzliche Funktionen bereit, mit denen Sie die einzelnen Bearbeitungsschritte starten oder Einstellungen vornehmen.

Abbildung 2: Alle wichtigen Funktionen von Gscan2pdf erreichen Sie über Schaltflächen im Hauptfenster.

Scannen

Beim Scannen öffnet dazu das in Abbildung 3 gezeigte Fenster. Vieles dort erinnert zu Recht an Xsane. Über die Auswahl Gerät wählen Sie aus, von welcher Quelle das Programm die Daten erhält, also normalerweise von einem Scanner. Diesen sollten Sie anschalten, bevor Sie Gscan2pdf starten. Gegebenenfalls suchen Sie über Rescan for devices nach neuen Eingabegeräten.

Abbildung 3: In einem etwas unübersichtlichen Dialog legen Sie die grundlegenden Optionn zum Scannen fest.

In den Seiteneinstellungen legen Sie fest, ob Sie dem Programm die Seiten per automatischem oder über manuellen Einzug übergeben. Dabei haben Sie die Möglichkeit, die Anzahl von automatischen Seiteneinzügen bei Scannern zu begrenzen, die das unterstützen. Der Punkt Erweiterte Seitennummerierung erlaubt es, vom regulären Nummerierungsschema abweichende Seitennummern zu vergeben oder mit einer Startseite anzufangen.

Unter Dokument teilen Sie der Applikation mit, ob Sie eine Einzelseite oder Vorder- und Rückseite (Doppelseitig) nacheinander scannen möchten. Dies ist ebenfalls nur bei Scannern mit automatischem Einzug (und Duplexfunktion) relevant. Die Optionen in der Gruppe Nachbearbeitung legen fest, wie Gscan2pdf mit den eingescannten Bildern verfährt. Die Option Drehen erweist sich als sinnvoll, um vernünftige PDFs zu erzeugen; für das OCR ist ein korrektes Ausrichten normalerweise unerlässlich.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Abgelichtet und weggepackt
    Viele Scanner-Tools verwirren mit zahlreichen Funktionen, die Sie in den meisten Fällen nicht benötigen. Der übersichtliche Scan-Helfer Gscan2pdf verwandelt dagegen einfach und komfortabel alte Papierdokumente in platzsparende PDF-Dateien.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Richtig digitalisieren
    Einfach nur Bücher einscannen war gestern. Mit dem richtigen Werkzeugkasten erstellen Sie heute E-Books inklusive Volltextsuche und Inhaltsverzeichnis weitgehend automatisch.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
Kommentare

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...