OCRFeeder

Als zweiten Kandidat trat OCRFeeder [3] an die Startlinie. Das Programm setzt als OCR-Engine ebenfalls Tesseract voraus und integriert über die Software Unpaper [4] Optionen, um schlechte Vorlagen zu verbessern. Neben den DEB-Paketen und Tar.gz-Archiven, die Sie auf der Projektseite finden, stehen auch vorkompilierte RPM-Pakete für Mandriva und PCLinuxOS bereit ([5],[6]).

Unter Mandriva 2010.1 legt die Installationsroutine einen Starter im Gnome-Menü Anwendungen | Büroprogramme an. Die OCRFeeder-Entwickler haben sich optisch und unter der Haube stark an Gnome orientiert, und daher integriert sich die Software bestens in die GTK-basierte Oberfläche.

Nach einem sehr zügigen Start des Programms finden Sie ein sehr spartanisch anmutendes Programmfenster vor: Eine Menüleiste mit lediglich sechs Untermenüs sowie eine Buttonleiste mit fünf Schaltflächen machen die einzigen Bedienelemente der Software aus. Das Programm zeigt das einzulesende Bild im unteren Bereich des Fensters mittig an. Bei mehrseitigen Dokumenten sehen Sie links die einzelnen Seiten in einer verkleinerten Ansicht.

Ein Blick in die Menüs und auf die Buttonleiste fördert einige Besonderheiten zutage: So liest die Software PDF-Dateien ein, obwohl Tesseract als Basis in der Variante für die Kommandozeile ausschließlich mit Grafiken im TIF-Format zurechtkommt. Eine Schaltlfäche ermöglicht zudem den Export des extrahierten Textes in das ODT-Format. So haben Sie die Möglichkeit, die Datei anschließend ohne weiteres Konvertieren im Writer-Modul des freien Büropakets weiterzuverarbeiten.

Zunächst müssen Sie jedoch eine Datei öffnen, was Sie durch Anklicken der Schaltfläche mit dem Pluszeichen oben links in der Buttonleiste erledigen. Ein Bild direkt zu öffnen, gelingt nur, wenn dieses zwingend im TIF-Format vorliegt und darf nur das Suffix .tif aufweisen. Möchten Sie ein PDF-Dokument einlesen, so tun Sie dies über Anklicken des Menüpunktes Datei | PDF importieren.

Nach dem Einlesen der Bilddatei klicken Sie auf den zweiten Button von links Automatische Detektion und Erkennung. OCRFeeder analysiert das Dokument und bildet um die einzelnen Teile farbige Rahmen. Texte hinterlegt es hellblau; Bilder oder Elemente mit bildlichem Inhalt in einem hellen Grünton (Abbildung 1).

Abbildung 1: Selbst komplexe PDF-Dokumente analysiert OCRFeeder eingehend und zuverlässig.

OCRFeeder fügt dem Ansichtsfenster nun rechts einen zusätzlichen dritten Bereich hinzu, in dem er die Analyseergebnisse anzeigt. Im Test mit einem mehrseitigen, sehr komplexen bebilderten Dokument erwies sich die Analyse und das Erkennen der einzelnen Seitenelemente als höchst zuverlässig. Ein Klick auf die einzelnen Farbrahmen im mittleren Ansichtsbereich zeigt anschließend rechts im Programmfenster die jeweiligen Analyseergebnisse an.

Damit nicht die Software beim Erkennen der Texte durch Bildelemente aus dem Konzept gerät, blenden Sie Elemente, die die Software als Bilder erkannt hat, aus. Dies geschieht, indem Sie auf den entsprechenden Farbrahmen klicken und im Funktionsmenü den Eintrag Dokument | Ausgewählte Bereiche löschen wählen. Sie dürfen selbstverständlich mehrere Rahmen markieren. Das tun Sie, indem Sie diese bei gleichzeitigem Drücken von [Umschalt] anklicken.

OCRFeeder entfernt nun um die ausgewählten Bereiche die Rahmen und deaktiviert sie somit. Ein Klick auf den Button OCR rechts mittig im Programmfenster startet nach eventueller Rahmenauswahl die eigentliche Arbeit. Bei Bedarf korrigieren Sie das Ergebnis anschließend unten rechts im Fenster oder speichern es gleich speichern durch Aufrufen des Menüpunktes Datei | Speichern. Die Software legt das Dokument sodann im programmeigenen OCRF-Format auf die Platte.

Wollen Sie das Dokument im Writer-Format ablegen, klicken Sie lediglich in der Buttonleiste auf den OpenOffice-Schaltknopf und geben im sich öffnenden Fenster Pfad und Dateinamen an. Bei mehrseitigen Dokumenten fragt OCRFeeder vor dem Speichern noch ab, ob Sie das gesamte Dokument oder nur die aktuelle Seite speichern möchten.

Not really amused

Die Ergebnisse mit OCRFeeder taugen für deutsche Anwender nur sehr bedingt, was umso mehr erstaunt, weil das Programm im Test komplexe PDF-Dokumente zuverlässig analysierte. Die eigentliche Texterkennung selbst lässt jedoch viele Wünsche offen. So kommt OCRFeeder trotz installiertem Ocropus nicht mit dem in Zeitschriften und Fachmagazinen üblichen Spaltensatz zurecht. Folglich war das Ergebnis trotz eigentlich guter Erkennungsrate nicht zu gebrauchen.

Ein weiteres Manko liegt in der Tatsache, dass die Software keine komfortable Möglichkeit zum Umschalten der Sprache beinhaltet, wie beispielsweise Yagf oder Cuneiform-Qt, so dass stets das englische Sprachmodul von Tesseract zum Einsatz kommt. Dadurch ließt die Applikation jegliche deutschen Umlaute und Sonderzeichen falsch aus. Wer englischsprachige Fließtexte ohne Spalten mit OCRFeeder bearbeitet, findet allerdings bei entsprechend guten Vorlagen kaum Fehler. Für deutsche Anwender ist die Software jedoch in den meisten Fällen weniger hilfreich.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...