YAGF

YAGF startet ähnlich rasant und bietet auch eine gleichermaßen schnelle Texterkennung wie Cuneiform-Qt. Wie bei Cuneiform-Qt besteht der Arbeitsbereich von YAGF aus zwei großen, nebeneinander angeordneten Dokumentenrahmen für das zu erkennende Bild links und das OCR-Ergebnis rechts. Darüber befindet sich eine horizontal angeordnete Schalterleiste. Ganz oben im Programmfenster findet sich eine Menüleiste mit lediglich zwei Einträgen, die wiederum in sehr übersichtlich ausgestattete Untermenüs verzweigen (Abbildung 3).

Abbildung 3: Auch YAGF erlaubt eine intuitive Bedienung.

Bei YAGF nehmen Sie die relevanten Einstellungen wie Sprachversion und Ausgabeformat dank eingebetteter Auswahlmenüs bequem aus der Schalterleiste heraus vor. Aufgrund der Anbindung des Aspell-Wörterbuchs nimmt YAGF außerdem auf Wunsch eine Rechtschreibprüfung vor, die fehlerhaft erkannte Begriffe markiert. So sinkt insbesondere bei längeren Texten die Gefahr, bei der manuellen Korrektur etwas zu übersehen. Bei älteren deutschsprachigen Texten, die noch nach der alten Rechtschreibung entstanden sind, kann die orthographische Prüfung jedoch auch zu Problemen führen. Dies gilt insbesondere beim Bearbeiten von Zitaten aus wissenschaftlichen Texten, da es diese authentisch wiederzugeben gilt.

Durch die Einbindung von Xsane ermöglicht YAGF, Papiervorlagen direkt aus der Texterkennung heraus für das weitere Bearbeiten mithilfe der OCR-Engine einzuscannen. Sie starten Xsane einfach mit einem Klick auf das Scannersymbol in der Schalterleiste von YAGF oder stoßen den Scanvorgang über das Menü Datei | Bild einlesen an. Das eingescannte Bild erscheint im linken Fensterrahmen von YAGF. Anschließend startet ein Klick auf eine der beiden Schaltflächen mit Lupensymbol die Texterkennung.

Hier definieren Sie, ob Cuneiform das vorhandene Dokument seitenweise oder komplett einlesen soll. Bei querformatig eingescannten Bildern besteht die Möglichkeit, diese durch eine über dem linken Fensterrahmen eingeblendete Knopfleiste zu drehen. Das macht bei solchen im Rohzustand unbrauchbaren Vorlagen die Texterkennung erst möglich. Mithilfe der über dem linken Ansichtsbereich eingeblendeten Schalterleiste markieren Sie in der Vorlage den zur Texterkennung vorgesehenen Bereich. Diese Funktion erweist sich vor allem bei komplexen Dokumenten als nützlich, bei denen der Text die Grafik beidseitig umfließt. Bislang kommt keine Texterkennung bei solchen komplexen Layouts automatisch zu befriedigenden Ergebnissen. Die die manuelle Markierung in YAGF gestattet zumindest das Ausblenden mittig positionierter Abbildungen.

Ein weiteres Highlight von YAGF stellt die Möglichkeit dar, den erkannten Text – er erscheint im rechten Arbeitsbereich des Programmfensters – grundlegend zu bearbeiten. Sie können Textteile löschen, Absätze einfügen oder sogar zusätzlichen Text aus der Zwischenablage integrieren. Umgekehrt lässt sich auch im Arbeitsbereich markierter Text durch einen Klick auf die Schaltfläche Text in die Zwischenablage kopieren in diese übernehmen und in anderen Anwendungen weiterverarbeiten. In Kombination mit der Rechtschreibprüfung kontrollieren Sie so eingelesene Texte schnell und sicher auf orthographische Schwächen.

Linguistisches

Sowohl das Duo YAGF/Cuneiform als auch die Kombination Cuneiform-Qt/Cuneiform bietet die Möglichkeit, die Sprache der Texterkennung auszuwählen. Hierbei werden nicht nur romanische Sprachen mit Sonderzeichen berücksichtigt, sondern auch slawische Idiome und sogar mehrere Sprachen, die kyrillische Zeichensätze verwenden. In Cuneiform-Qt definieren Sie die Dokumentensprache im Menü Settings | Configure... | Language:; in YAGF wählen Sie die Erkennungssprache per Dropdown-Menü aus (Abbildung 4).

Abbildung 4: Mehrsprachigkeit? Für YAGF kein Problem.

Um Problemen aus dem Weg zu gehen, die bei Mischdokumenten mit mehreren Zeichensätzen entstehen, können Cuneiform-Qt wie YAGF zwei Zeichensätze simultan zur Texterkennung heranziehen. Diese Fähigkeit ist vor allem dann interessant, wenn Markennamen oder Bezeichnungen aus dem westeuropäischen oder angelsächsischen Raum den kyrillischen Text durchsetzen. Im Falle einer Erkennung ausschließlich mit kyrillischem Zeichensatz werden solche Bezeichnungen nicht korrekt wiedergegeben, was den Nachbearbeitungsaufwand eines Dokumentes drastisch erhöht. Cuneiform-Qt bietet lediglich die Option, gemischte russisch-englische Zeichensätze bei der Texterkennung zu nutzen, während YAGF auch die Kombination mit spanischen, deutschen und französischen Zeichensätzen anbietet. Letzteres deckt so gut wie alle in den verschiedenen westeuropäischen Sprachen genutzten Sonderzeichen ab.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Texterkennung mit Tesseract
    Schicke Frontends wollen beim Umgang mit der OCR-Engine Tesseract helfen. Wie gut das gelingt, zeigt ein Test.
  • Texte scannen und mit OCR nachbearbeiten
    Mit einem kleinen Skript verarbeiten Sie große Mengen an Textscans zu PDF-Dateien, die Sie dank OCR mit typischen Unix-Werkzeugen im Volltext durchsuchen.
  • Dokumente mit gscan2pdf scannen
    Um schnell ein Foto einzuscannen, reichen Programme wie XSane völlig aus. Ein mehrseitiges Dokument als PDF-Datei speichern können Sie damit aber nicht. Hier hift gscan2pdf.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise.
Kommentare
Unzulänglich
ich (unangemeldet), Donnerstag, 14. April 2011 18:50:49
Ein/Ausklappen

dieser Artikel lässt die wesentlichen Punkte bei der Installation weg. Mir es nicht gelungen die beschriebenen Programme zu installieren.

Früher konnte man mit den Artikeln etwas anfangen.



Bewertung: 136 Punkte bei 11 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 01/2015: E-Books im Griff

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

PCLinuxOS Version 2014.08 "FullMonty" Umstellung auf deutsch
Karl-Heinz Welz, 19.12.2014 09:55, 3 Antworten
Hallo, liebe Community, ich bin 63 Jahre alt und möchte jetzt nach Jahrzehnten Windows zu Linux...
ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...
Steuern mit Linux
Siegfried Markner, 01.12.2014 11:56, 2 Antworten
Welches Linux eignet sich am besten für Steuerungen.