OCRFeeder

Als zweiten Kandidat trat OCRFeeder [3] an die Startlinie. Das Programm setzt als OCR-Engine ebenfalls Tesseract voraus und integriert über die Software Unpaper [4] Optionen, um schlechte Vorlagen zu verbessern. Neben den DEB-Paketen und Tar.gz-Archiven, die Sie auf der Projektseite finden, stehen auch vorkompilierte RPM-Pakete für Mandriva und PCLinuxOS bereit ([5],[6]).

Unter Mandriva 2010.1 legt die Installationsroutine einen Starter im Gnome-Menü Anwendungen | Büroprogramme an. Die OCRFeeder-Entwickler haben sich optisch und unter der Haube stark an Gnome orientiert, und daher integriert sich die Software bestens in die GTK-basierte Oberfläche.

Nach einem sehr zügigen Start des Programms finden Sie ein sehr spartanisch anmutendes Programmfenster vor: Eine Menüleiste mit lediglich sechs Untermenüs sowie eine Buttonleiste mit fünf Schaltflächen machen die einzigen Bedienelemente der Software aus. Das Programm zeigt das einzulesende Bild im unteren Bereich des Fensters mittig an. Bei mehrseitigen Dokumenten sehen Sie links die einzelnen Seiten in einer verkleinerten Ansicht.

Ein Blick in die Menüs und auf die Buttonleiste fördert einige Besonderheiten zutage: So liest die Software PDF-Dateien ein, obwohl Tesseract als Basis in der Variante für die Kommandozeile ausschließlich mit Grafiken im TIF-Format zurechtkommt. Eine Schaltlfäche ermöglicht zudem den Export des extrahierten Textes in das ODT-Format. So haben Sie die Möglichkeit, die Datei anschließend ohne weiteres Konvertieren im Writer-Modul des freien Büropakets weiterzuverarbeiten.

Zunächst müssen Sie jedoch eine Datei öffnen, was Sie durch Anklicken der Schaltfläche mit dem Pluszeichen oben links in der Buttonleiste erledigen. Ein Bild direkt zu öffnen, gelingt nur, wenn dieses zwingend im TIF-Format vorliegt und darf nur das Suffix .tif aufweisen. Möchten Sie ein PDF-Dokument einlesen, so tun Sie dies über Anklicken des Menüpunktes Datei | PDF importieren.

Nach dem Einlesen der Bilddatei klicken Sie auf den zweiten Button von links Automatische Detektion und Erkennung. OCRFeeder analysiert das Dokument und bildet um die einzelnen Teile farbige Rahmen. Texte hinterlegt es hellblau; Bilder oder Elemente mit bildlichem Inhalt in einem hellen Grünton (Abbildung 1).

Abbildung 1: Selbst komplexe PDF-Dokumente analysiert OCRFeeder eingehend und zuverlässig.

OCRFeeder fügt dem Ansichtsfenster nun rechts einen zusätzlichen dritten Bereich hinzu, in dem er die Analyseergebnisse anzeigt. Im Test mit einem mehrseitigen, sehr komplexen bebilderten Dokument erwies sich die Analyse und das Erkennen der einzelnen Seitenelemente als höchst zuverlässig. Ein Klick auf die einzelnen Farbrahmen im mittleren Ansichtsbereich zeigt anschließend rechts im Programmfenster die jeweiligen Analyseergebnisse an.

Damit nicht die Software beim Erkennen der Texte durch Bildelemente aus dem Konzept gerät, blenden Sie Elemente, die die Software als Bilder erkannt hat, aus. Dies geschieht, indem Sie auf den entsprechenden Farbrahmen klicken und im Funktionsmenü den Eintrag Dokument | Ausgewählte Bereiche löschen wählen. Sie dürfen selbstverständlich mehrere Rahmen markieren. Das tun Sie, indem Sie diese bei gleichzeitigem Drücken von [Umschalt] anklicken.

OCRFeeder entfernt nun um die ausgewählten Bereiche die Rahmen und deaktiviert sie somit. Ein Klick auf den Button OCR rechts mittig im Programmfenster startet nach eventueller Rahmenauswahl die eigentliche Arbeit. Bei Bedarf korrigieren Sie das Ergebnis anschließend unten rechts im Fenster oder speichern es gleich speichern durch Aufrufen des Menüpunktes Datei | Speichern. Die Software legt das Dokument sodann im programmeigenen OCRF-Format auf die Platte.

Wollen Sie das Dokument im Writer-Format ablegen, klicken Sie lediglich in der Buttonleiste auf den OpenOffice-Schaltknopf und geben im sich öffnenden Fenster Pfad und Dateinamen an. Bei mehrseitigen Dokumenten fragt OCRFeeder vor dem Speichern noch ab, ob Sie das gesamte Dokument oder nur die aktuelle Seite speichern möchten.

Not really amused

Die Ergebnisse mit OCRFeeder taugen für deutsche Anwender nur sehr bedingt, was umso mehr erstaunt, weil das Programm im Test komplexe PDF-Dokumente zuverlässig analysierte. Die eigentliche Texterkennung selbst lässt jedoch viele Wünsche offen. So kommt OCRFeeder trotz installiertem Ocropus nicht mit dem in Zeitschriften und Fachmagazinen üblichen Spaltensatz zurecht. Folglich war das Ergebnis trotz eigentlich guter Erkennungsrate nicht zu gebrauchen.

Ein weiteres Manko liegt in der Tatsache, dass die Software keine komfortable Möglichkeit zum Umschalten der Sprache beinhaltet, wie beispielsweise Yagf oder Cuneiform-Qt, so dass stets das englische Sprachmodul von Tesseract zum Einsatz kommt. Dadurch ließt die Applikation jegliche deutschen Umlaute und Sonderzeichen falsch aus. Wer englischsprachige Fließtexte ohne Spalten mit OCRFeeder bearbeitet, findet allerdings bei entsprechend guten Vorlagen kaum Fehler. Für deutsche Anwender ist die Software jedoch in den meisten Fällen weniger hilfreich.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 01/2015: E-Books im Griff

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

flash-player
roland reiner, 27.12.2014 15:24, 0 Antworten
Mein Flashplayer funktioniert nicht mehr-Plug in wird nicht mehr unterstütz,auch über google chro...
PCLinuxOS Version 2014.08 "FullMonty" Umstellung auf deutsch
Karl-Heinz Welz, 19.12.2014 09:55, 4 Antworten
Hallo, liebe Community, ich bin 63 Jahre alt und möchte jetzt nach Jahrzehnten Windows zu Linux...
ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...