Eingescannte Texte automatisch erkennen

Aus LinuxUser 04/2011

Eingescannte Texte automatisch erkennen

© Sebastian Duda, 123rf.com

Alphabetisierung

Professionelle Texterkennung war bislang teuren kommerziellen Programmen unter Windows und Mac OS X vorbehalten. Mit dem freien Cuneiform und dessen grafischen Frontends YAGF und Cuneiform-Qt holt Linux den Rückstand auf.

Das einfache Einscannen von Texten anstelle des mühseligen Abtippens hat nicht nur bei professionellen Vielschreibern Konjunktur. Die fortschreitenden Verbreitung von Multifunktionsgeräten, die neben einem Drucker auch einen Scanner beinhalten, macht die automatisierte Texterkennung erschwinglich. Einziges Manko: Treffsicher arbeitende und gleichzeitig leicht zu bedienende Texterkennungsprogramme waren bisher unter Linux Mangelware. Mit dem aus Russland kommenden Cuneiform [1] schickt sich nun eine Software an, diesem Zustand ein Ende zu bereiten.

Das seit fast 20 Jahren in kontinuierlicher Entwicklung befindliche Programm ist inzwischen freie Software. Ein eigener Linux-Port trägt der wachsenden Bedeutung des freien Betriebssystems auch auf dem Desktop Rechnung. Den Linux-Port von Cuneiform erhalten Sie auf der Projektseite im Quellcode. Nutzer der gängigen Linux-Distributionen können sich jedoch das manuelle Kompilieren ersparen, denn für diese gibt es Cuneiform auch als Binärpaket: Ubuntu führt die OCR-Software seit der Version 10.04 im Multiverse-Repository, für OpenSuse und Mandriva liegen halbwegs aktuelle RPM-Pakete vor [2]. Nach deren Installation steht die Linux-Variante in Version 0.9.0 als reines Kommandozeilenprogramm zur Verfügung.

Um die Software auch jenseits des Terminals bequem auf dem grafischen Desktop nutzen zu können, stehen gleich zwei unterschiedliche grafische Oberflächen zur Auswahl, die die Texterkennung zu einem Kinderspiel machen: Cuneiform-Qt und YAGF.

Oberflächlich

Cuneiform-Qt setzt – wie der Name bereits andeutet – die Qt-Bibliothekenvoraus. Diese müssen Sie, sofern Sie nicht KDE als Desktop verwenden, meist manuell nachinstallieren. Danach laden Sie den Quellcode [3] von Cuneiform-Qt herunter und übersetzen ihn. Einfacher haben es lediglich Anwender von Mandriva, für die RPM-Pakete in 32- und 64-Bit-Versionen zur Verfügung stehen [4]. Bei deren Installation zieht der Mandriva-Paketmanager automatisch die benötigten Qt-Bibliotheken nach und legt im Gnome-Menü Anwendungen | Grafik | Weitere einen Starter für Cuneiform-Qt an.

Die wie Cuneiform selbst in Russland entwickelte Oberfläche YAGF setzt ebenfalls die Qt-Bibliotheken voraus und verlangt zusätzlich auch die Aspell-Wörterbücher als Voraussetzung. Letztere befinden sich in den Repositories aller gängigen Distributionen und lassen sich daher einfach über Synaptics, Yast & Co. installieren. Sie laden YAGF als Quellcode-Tarball [5] herunter.

Lediglich Mandriva-Nutzer finden erneut vorkompilierte Pakete [6] in 32- und 64-Bit-Ausführung und richten diese bequem per Mausklick ein. Die Routine legt einen entsprechenden Starter im Gnome-Menü Anwendungen | Grafik | Weitere an. Unter KDE finden Sie die Einträge der OCR-Oberflächen für Cuneiform-Qt und YAGF im Anwendungsstarter-Menü unter Alle Programme | Grafik.

Da YAGF einen größeren Funktionsumfang bietet als Cuneiform-Qt und auch das automatisierte Scannen und Einlesen der Vorlagen mithilfe von Xsane unterstützt, zieht es bei der Installation – sofern nicht schon vorhanden – Xsane zusätzlich nach. Falls Sie YAGF manuell einrichten, empfiehlt es sich, Xsane ebenfalls nachzuinstallieren.

Cuneiform-Qt

Ein Klick auf den Cuneiform-Qt-Starter öffnet in geradezu atemberaubendem Tempo ein übersichtliches Fenster: Im oberen Bereich übernehmen eine Menüleiste mit gerade einmal drei Untermenüs und darunter drei Schaltflächen die komplette Programmsteuerung. Darunter residieren zwei vorerst leere Rahmen, in denen Cuneiform-Qt später den Quelltext und das Erkennungsergebnis anzeigt.

Die drei Untermenüs File, Settings und Help geben sich äußerst spartanisch. Zum Einstieg nehmen Sie im Menü Settings | Configure… in den Auswahllisten Language: und Format: die nötigen Anpassungen vor, damit die Software auch die sprachenspezifischen Sonderzeichen korrekt erkennt (Abbildung 1). Den eigentlichen Texterkennungsvorgang starten Sie durch Öffnen der gewünschten Bilddatei über den Schaltern Open Image und einen anschließenden Mausklick auf die Schaltfläche Recognize Text.

Abbildung 1: Bei Cuneiform-Qt gibt es nicht viel zu konfigurieren.

Abbildung 1: Bei Cuneiform-Qt gibt es nicht viel zu konfigurieren.

Sofern die Quelldatei in einem von Cuneiform nicht lesbaren Dateiformat vorliegt, quittiert das Programm dies mit einer Fehlermeldung. Sie müssen in diesem Fall die Bilddatei erst in ein passendes Format konvertieren, was mithilfe des in nahezu jeder Linux-Distribution vorhandenen Bildbearbeitungsprogramms Gimp schnell und zuverlässig geschieht. Im Test fiel auf, dass Cuneiform-Qt offenbar ausschließlich mit dem Bilddatei-Format BMP zurecht kommt. Andere Formate wie TIFF oder PNG monierte die Software als nicht lesbar.

Auch das Ausgabeformat sollten Sie vor dem Erkennen des Textes im Menü Settings | Configure… | Format: festlegen. Um bei der Weiterverarbeitung des erkannten Textes möglichst flexibel zu bleiben, empfiehlt es sich hier, die Einstellungen HTML oder RTF zu wählen: Damit kommen so gut wie alle Textverarbeitungs- und Archivierungsprogramme zurecht.

Nach Abschluss der Texterkennung zeigt die Software das Ergebnis absatzweise formatiert im rechten Rahmen des Programmfensters an (Abbildung 2). Sie können somit sofort feststellen, ob das Ergebnis des Erkennungsdurchlaufs brauchbar ausfällt.

Abbildung 2: Die Oberfläche von Cuneiform-Qt benötigt keine Einarbeitung.

Abbildung 2: Die Oberfläche von Cuneiform-Qt benötigt keine Einarbeitung.

Im Falle von zu fehlerbehafteten Ergebnissen empfiehlt es sich, die Scan-Vorlage mithilfe von Gimp nachzubearbeiten, indem Sie Ziffern- und Buchstabenränder schärfen oder das gesamte Bild skalieren. Dies lohnt sich insbesondere bei längeren Vorlagen und umfangreichen Texten, bei denen eine manuelle Eingabe deutlich länger dauern würde als die automatisierte Texterkennung mit Nachkorrektur.

YAGF

YAGF startet ähnlich rasant und bietet auch eine gleichermaßen schnelle Texterkennung wie Cuneiform-Qt. Wie bei Cuneiform-Qt besteht der Arbeitsbereich von YAGF aus zwei großen, nebeneinander angeordneten Dokumentenrahmen für das zu erkennende Bild links und das OCR-Ergebnis rechts. Darüber befindet sich eine horizontal angeordnete Schalterleiste. Ganz oben im Programmfenster findet sich eine Menüleiste mit lediglich zwei Einträgen, die wiederum in sehr übersichtlich ausgestattete Untermenüs verzweigen (Abbildung 3).

Abbildung 3: Auch YAGF erlaubt eine intuitive Bedienung.

Abbildung 3: Auch YAGF erlaubt eine intuitive Bedienung.

Bei YAGF nehmen Sie die relevanten Einstellungen wie Sprachversion und Ausgabeformat dank eingebetteter Auswahlmenüs bequem aus der Schalterleiste heraus vor. Aufgrund der Anbindung des Aspell-Wörterbuchs nimmt YAGF außerdem auf Wunsch eine Rechtschreibprüfung vor, die fehlerhaft erkannte Begriffe markiert. So sinkt insbesondere bei längeren Texten die Gefahr, bei der manuellen Korrektur etwas zu übersehen. Bei älteren deutschsprachigen Texten, die noch nach der alten Rechtschreibung entstanden sind, kann die orthographische Prüfung jedoch auch zu Problemen führen. Dies gilt insbesondere beim Bearbeiten von Zitaten aus wissenschaftlichen Texten, da es diese authentisch wiederzugeben gilt.

Durch die Einbindung von Xsane ermöglicht YAGF, Papiervorlagen direkt aus der Texterkennung heraus für das weitere Bearbeiten mithilfe der OCR-Engine einzuscannen. Sie starten Xsane einfach mit einem Klick auf das Scannersymbol in der Schalterleiste von YAGF oder stoßen den Scanvorgang über das Menü Datei | Bild einlesen an. Das eingescannte Bild erscheint im linken Fensterrahmen von YAGF. Anschließend startet ein Klick auf eine der beiden Schaltflächen mit Lupensymbol die Texterkennung.

Hier definieren Sie, ob Cuneiform das vorhandene Dokument seitenweise oder komplett einlesen soll. Bei querformatig eingescannten Bildern besteht die Möglichkeit, diese durch eine über dem linken Fensterrahmen eingeblendete Knopfleiste zu drehen. Das macht bei solchen im Rohzustand unbrauchbaren Vorlagen die Texterkennung erst möglich. Mithilfe der über dem linken Ansichtsbereich eingeblendeten Schalterleiste markieren Sie in der Vorlage den zur Texterkennung vorgesehenen Bereich. Diese Funktion erweist sich vor allem bei komplexen Dokumenten als nützlich, bei denen der Text die Grafik beidseitig umfließt. Bislang kommt keine Texterkennung bei solchen komplexen Layouts automatisch zu befriedigenden Ergebnissen. Die die manuelle Markierung in YAGF gestattet zumindest das Ausblenden mittig positionierter Abbildungen.

Ein weiteres Highlight von YAGF stellt die Möglichkeit dar, den erkannten Text – er erscheint im rechten Arbeitsbereich des Programmfensters – grundlegend zu bearbeiten. Sie können Textteile löschen, Absätze einfügen oder sogar zusätzlichen Text aus der Zwischenablage integrieren. Umgekehrt lässt sich auch im Arbeitsbereich markierter Text durch einen Klick auf die Schaltfläche Text in die Zwischenablage kopieren in diese übernehmen und in anderen Anwendungen weiterverarbeiten. In Kombination mit der Rechtschreibprüfung kontrollieren Sie so eingelesene Texte schnell und sicher auf orthographische Schwächen.

Linguistisches

Sowohl das Duo YAGF/Cuneiform als auch die Kombination Cuneiform-Qt/Cuneiform bietet die Möglichkeit, die Sprache der Texterkennung auszuwählen. Hierbei werden nicht nur romanische Sprachen mit Sonderzeichen berücksichtigt, sondern auch slawische Idiome und sogar mehrere Sprachen, die kyrillische Zeichensätze verwenden. In Cuneiform-Qt definieren Sie die Dokumentensprache im Menü Settings | Configure… | Language:; in YAGF wählen Sie die Erkennungssprache per Dropdown-Menü aus (Abbildung 4).

Abbildung 4: Mehrsprachigkeit? Für YAGF kein Problem.

Abbildung 4: Mehrsprachigkeit? Für YAGF kein Problem.

Um Problemen aus dem Weg zu gehen, die bei Mischdokumenten mit mehreren Zeichensätzen entstehen, können Cuneiform-Qt wie YAGF zwei Zeichensätze simultan zur Texterkennung heranziehen. Diese Fähigkeit ist vor allem dann interessant, wenn Markennamen oder Bezeichnungen aus dem westeuropäischen oder angelsächsischen Raum den kyrillischen Text durchsetzen. Im Falle einer Erkennung ausschließlich mit kyrillischem Zeichensatz werden solche Bezeichnungen nicht korrekt wiedergegeben, was den Nachbearbeitungsaufwand eines Dokumentes drastisch erhöht. Cuneiform-Qt bietet lediglich die Option, gemischte russisch-englische Zeichensätze bei der Texterkennung zu nutzen, während YAGF auch die Kombination mit spanischen, deutschen und französischen Zeichensätzen anbietet. Letzteres deckt so gut wie alle in den verschiedenen westeuropäischen Sprachen genutzten Sonderzeichen ab.

Erkennungsraten

Im Test verwendeten wir für beide Oberflächen unterschiedliche Vorlagen, die neben verschiedenen Schriftgrößen auch serifenhaltige wie serifenlose Schrifttypen beinhalteten. Zusätzlich zogen wir einen Textausschnitt mit kyrillischem Zeichensatz heran, um die Qualität der Texterkennung beurteilen zu können.

Das auch von den einstellbaren Optionen her sehr einfach gehaltene Cuneiform-Qt hatte wie bereits erwähnt Probleme, andere Bilddateiformate als BMP zu erkennen. Die weit verbreiteten Bildformate PNG und TIFF liest es nicht ein. Die Erkennungsgenauigkeit von Text in BMP-Dateien lässt unter Cuneiform-Qt keinerlei Wünsche offen, sofern die Vorlage ausreichend scharf ausfällt und die Schriftgröße über zehn Punkt liegt. Kleinere Schriftgrößen oder unscharf gescannte Vorlagen (wie sie beispielsweise beim Einlesen von Buchseiten am Buchrücken auftreten) bringen Cuneiform-Qt aus dem Konzept. Auch durch Staubkörner oder Fusseln auf der Scannerscheibe verursachte Punkte und optische Mängel in der Bilddatei führen in vielen Fällen zu fehlerhaften Scanergebnissen.

Bei dahingehend optimierten Vorlagen liefert Cuneiform-Qt jedoch erstklassige Ergebnisse. Die Erkennungssoftware schafft es bei entsprechender Vorlagenqualität sogar, problematische ähnliche Zeichen wie “S” und “5” oder “B” und “8” durch eine kontextsensitive Methode zuverlässig auseinanderzuhalten. Auch der Wechsel von Schriftattributen, wie beispielsweise bei fett gedruckten und kursiven Textteilen, stellt Cuneiform-Qt vor keinerlei Probleme. Ähnliches gilt für fremdsprachige Texte. Sowohl ein französischsprachiger Text mit den entsprechenden Sonderzeichen als auch ein kyrillischer Text brachten die Software nicht in Verlegenheit.

YAGF erfreut mit ähnlich erstklassigen Texterkennungsraten bei optimierten Vorlagen. Auch hier gilt, dass die Schriftgröße nicht zu klein ausfallen darf und die Schrift scharf gezeichnet sein müssen, um zu sehr guten Erkennungsergebnissen zu führen. YAGF kommt jedoch anders als Cuneiform-Qt auch mit anderen Quelldateiformaten als BMP zurecht. Zudem bietet es durch die Option, querformatige Vorlagen um 90 Grad zu drehen und damit überhaupt erst erkennungstauglich zu machen, deutlich mehr Flexibilität gegeben. Schließlich hat YAGF den Vorteil, mehr fremdsprachige Zeichensätze per Optionsauswahl zu unterstützen als Cuneiform-Qt (Abbildung 5).

Abbildung 5: Auch russische Texte erkennt YAGF zuverlässig.

Abbildung 5: Auch russische Texte erkennt YAGF zuverlässig.

Optimierung

Um insbesondere bei mehrseitigen Vorlagen befriedigende Erkennungsergebnisse zu erzielen und damit erheblichen Arbeitsaufwand für manuelle Korrekturen einzusparen, sollten Sie eingescannte Bildvorlagen gegebenenfalls zunächst in Gimp optimieren. Bei unseren Tests erbrachte diese Vorgehensweise unabhängig vom verwendeten Zeichensatz deutlich verbesserte Erkennungsresultate.

Bei unscharf gescannten Vorlagen heben Sie das Bild in Gimp über Filter | Verbessern | Schärfen auf ein brauchbares Niveau. Fällt die Schriftgröße der Vorlage sehr klein aus, vergrößern Sie den Scan mithilfe der Funktion Bild | Bild skalieren. Bedenken Sie dabei bitte, dass die Skalierung je nach Vergrößerungsfaktor zu einer deutlich sichtbaren Unschärfe der Schriftzeichen führen kann, sodass Sie die Vorlage gegebenenfalls anschließend noch schärfen müssen.

Fazit

Cuneiform mit seinen beiden grafischen Oberflächen Cuneiform-Qt und YAGF ermöglicht bei optimierten Vorlagen Texterkennungsraten, wie sie ansonsten nur sehr kostspielige kommerzielle Programme erreichen. Die drei Applikationen erfreuen durch sehr schnelle Arbeitsweise und große Stabilität. Die beiden Frontends dienen als ohne lange Einarbeitungszeit sofort produktiv bedienbare Oberfläche.

Für professionelle Anwender, die in einem Arbeitsgang auch die Bilddatei einscannen und querformatige Vorlagen drehen wollen, stellt YAGF die optimale Lösung dar. Für Gelegenheitsnutzer, die weniger umfangreiche Scanvorlagen umsetzen, bietet sich dagegen Cuneiform-Qt an: Es gibt sich durch weniger Funktionen übersichtlicher und arbeitet auch schneller. Als Pluspunkt beider Frontends darf die multilinguale Erkennung gelten, die faktisch den gesamten europäischen und angelsächsischen Sprachraum abdeckt und somit die Texterkennung auch sprachenunabhängig deutlich flexibilisiert. 

Glossar

OCR

Optical Character Recognition. Texterkennung in einer Bilddatei anhand von Zeichenmustern. Dabei wertet ein OCR-Programm die vom Scanner eingelesenen Rastergrafiken aus und vergleicht diese mit den Zeichensätzen der internen Datenbank. Moderne OCR-Programme unterscheiden außerdem durch eine Kontextanalyse ähnliche Zeichen und Ziffern und erhöhen damit die Erkennungsrate.

Infos

[1] Cuneiform: https://launchpad.net/cuneiform-linux

[2] RPM-Pakete: http://rpm.pbone.net

[3] Cuneiform-Qt: http://sourceforge.net/projects/cuneiform-qt/

[4] Cuneiform-Qt für Mandriva: http://rpm.pbone.net

[5] YAGF: http://symmetrica.net/cuneiform-linux/yagf-en.html

[6] YAGF für Mandriva 2010: http://rpm.pbone.net

LinuxUser 04/2011 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

1 Kommentar
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
ich
15 Jahre her

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.

Nach oben