AA_PO-22223-Buchstabensalat.jpg

© Sebastian Duda, 123rf.com

Alphabetisierung

Eingescannte Texte automatisch erkennen

04.03.2011
Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.

Das einfache Einscannen von Texten anstelle des mühseligen Abtippens hat nicht nur bei professionellen Vielschreibern Konjunktur. Die fortschreitenden Verbreitung von Multifunktionsgeräten, die neben einem Drucker auch einen Scanner beinhalten, macht die automatisierte Texterkennung erschwinglich. Einziges Manko: Treffsicher arbeitende und gleichzeitig leicht zu bedienende Texterkennungsprogramme waren bisher unter Linux Mangelware. Mit dem aus Russland kommenden Cuneiform [1] schickt sich nun eine Software an, diesem Zustand ein Ende zu bereiten.

Das seit fast 20 Jahren in kontinuierlicher Entwicklung befindliche Programm ist inzwischen freie Software. Ein eigener Linux-Port trägt der wachsenden Bedeutung des freien Betriebssystems auch auf dem Desktop Rechnung. Den Linux-Port von Cuneiform erhalten Sie auf der Projektseite im Quellcode. Nutzer der gängigen Linux-Distributionen können sich jedoch das manuelle Kompilieren ersparen, denn für diese gibt es Cuneiform auch als Binärpaket: Ubuntu führt die OCR-Software seit der Version 10.04 im Multiverse-Repository, für OpenSuse und Mandriva liegen halbwegs aktuelle RPM-Pakete vor [2]. Nach deren Installation steht die Linux-Variante in Version 0.9.0 als reines Kommandozeilenprogramm zur Verfügung.

Um die Software auch jenseits des Terminals bequem auf dem grafischen Desktop nutzen zu können, stehen gleich zwei unterschiedliche grafische Oberflächen zur Auswahl, die die Texterkennung zu einem Kinderspiel machen: Cuneiform-Qt und YAGF.

Oberflächlich

Cuneiform-Qt setzt – wie der Name bereits andeutet – die Qt-Bibliothekenvoraus. Diese müssen Sie, sofern Sie nicht KDE als Desktop verwenden, meist manuell nachinstallieren. Danach laden Sie den Quellcode [3] von Cuneiform-Qt herunter und übersetzen ihn. Einfacher haben es lediglich Anwender von Mandriva, für die RPM-Pakete in 32- und 64-Bit-Versionen zur Verfügung stehen [4]. Bei deren Installation zieht der Mandriva-Paketmanager automatisch die benötigten Qt-Bibliotheken nach und legt im Gnome-Menü Anwendungen | Grafik | Weitere einen Starter für Cuneiform-Qt an.

Die wie Cuneiform selbst in Russland entwickelte Oberfläche YAGF setzt ebenfalls die Qt-Bibliotheken voraus und verlangt zusätzlich auch die Aspell-Wörterbücher als Voraussetzung. Letztere befinden sich in den Repositories aller gängigen Distributionen und lassen sich daher einfach über Synaptics, Yast & Co. installieren. Sie laden YAGF als Quellcode-Tarball [5] herunter.

Lediglich Mandriva-Nutzer finden erneut vorkompilierte Pakete [6] in 32- und 64-Bit-Ausführung und richten diese bequem per Mausklick ein. Die Routine legt einen entsprechenden Starter im Gnome-Menü Anwendungen | Grafik | Weitere an. Unter KDE finden Sie die Einträge der OCR-Oberflächen für Cuneiform-Qt und YAGF im Anwendungsstarter-Menü unter Alle Programme | Grafik.

Da YAGF einen größeren Funktionsumfang bietet als Cuneiform-Qt und auch das automatisierte Scannen und Einlesen der Vorlagen mithilfe von Xsane unterstützt, zieht es bei der Installation – sofern nicht schon vorhanden – Xsane zusätzlich nach. Falls Sie YAGF manuell einrichten, empfiehlt es sich, Xsane ebenfalls nachzuinstallieren.

Cuneiform-Qt

Ein Klick auf den Cuneiform-Qt-Starter öffnet in geradezu atemberaubendem Tempo ein übersichtliches Fenster: Im oberen Bereich übernehmen eine Menüleiste mit gerade einmal drei Untermenüs und darunter drei Schaltflächen die komplette Programmsteuerung. Darunter residieren zwei vorerst leere Rahmen, in denen Cuneiform-Qt später den Quelltext und das Erkennungsergebnis anzeigt.

Die drei Untermenüs File, Settings und Help geben sich äußerst spartanisch. Zum Einstieg nehmen Sie im Menü Settings | Configure... in den Auswahllisten Language: und Format: die nötigen Anpassungen vor, damit die Software auch die sprachenspezifischen Sonderzeichen korrekt erkennt (Abbildung 1). Den eigentlichen Texterkennungsvorgang starten Sie durch Öffnen der gewünschten Bilddatei über den Schaltern Open Image und einen anschließenden Mausklick auf die Schaltfläche Recognize Text.

Abbildung 1: Bei Cuneiform-Qt gibt es nicht viel zu konfigurieren.

Sofern die Quelldatei in einem von Cuneiform nicht lesbaren Dateiformat vorliegt, quittiert das Programm dies mit einer Fehlermeldung. Sie müssen in diesem Fall die Bilddatei erst in ein passendes Format konvertieren, was mithilfe des in nahezu jeder Linux-Distribution vorhandenen Bildbearbeitungsprogramms Gimp schnell und zuverlässig geschieht. Im Test fiel auf, dass Cuneiform-Qt offenbar ausschließlich mit dem Bilddatei-Format BMP zurecht kommt. Andere Formate wie TIFF oder PNG monierte die Software als nicht lesbar.

Auch das Ausgabeformat sollten Sie vor dem Erkennen des Textes im Menü Settings | Configure... | Format: festlegen. Um bei der Weiterverarbeitung des erkannten Textes möglichst flexibel zu bleiben, empfiehlt es sich hier, die Einstellungen HTML oder RTF zu wählen: Damit kommen so gut wie alle Textverarbeitungs- und Archivierungsprogramme zurecht.

Nach Abschluss der Texterkennung zeigt die Software das Ergebnis absatzweise formatiert im rechten Rahmen des Programmfensters an (Abbildung 2). Sie können somit sofort feststellen, ob das Ergebnis des Erkennungsdurchlaufs brauchbar ausfällt.

Abbildung 2: Die Oberfläche von Cuneiform-Qt benötigt keine Einarbeitung.

Im Falle von zu fehlerbehafteten Ergebnissen empfiehlt es sich, die Scan-Vorlage mithilfe von Gimp nachzubearbeiten, indem Sie Ziffern- und Buchstabenränder schärfen oder das gesamte Bild skalieren. Dies lohnt sich insbesondere bei längeren Vorlagen und umfangreichen Texten, bei denen eine manuelle Eingabe deutlich länger dauern würde als die automatisierte Texterkennung mit Nachkorrektur.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise.
Kommentare
Unzulänglich
ich (unangemeldet), Donnerstag, 14. April 2011 18:50:49
Ein/Ausklappen

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.



Bewertung: 120 Punkte bei 10 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 12/2014: ANONYM & SICHER

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...