Texterkennung via Scanner gehört noch immer zu den großen Herausforderungen sowohl der Open-Source-Welt wie auch der kommerziellen Tools. Mit dem Projekt Ocropus startet das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) ein weiteres freies Projekt, dass diese Herausforderung annimmt. Das Programm, das in C++ und Python geschrieben ist und unter der Apache-2.0-Lizenz steht, erreicht eine Fehlerrate von zirka drei Prozent, womit es sich von der Erkennungsrate her zwischen den anderen freien Tools und den kommerziellen Mitbewerben einordnet.
Das Projekt basiert auf der Vorarbeit, die am DFKI im Rahmen der Forschung zur Handschriftenerkennung entstand sowie auf den Erkenntnissen, die die US-Regierung beim automatischen Erheben von Bevölkerungsdaten gewann. Aktuell unterstützt der Suchmaschinenbetreiber Google die Arbeit. Ein logischer Schritt angesichts der Bestrebungen des Unternehmens, große Buchbestände zu digitalisieren.
Ende März planen die Projektmitglieder den Release einer ersten Alphaversion. Wer nicht solange warten möchte, dem bietet die CeBIT 2007 eine Gelegenheit, einen Blick vorab auf die Software zu werfen. Die Mitglieder stehen mit einem Demostand in Halle 9 am Gemeinschaftsstand des Bundeslands Saarland.
Im Bereich der Texterkennung unter Linux hat sich in den vergangenen Monaten einiges getan. So setzt Google offensichtlich gleich auf mehrere Projekte. Neben Ocropus holte Google nämlich letztes Jahr die OCR-Software Tesseract aus der Versenkung. Das Unternehmen Nuance veröffentlichte sein Omnipage SDK für Linux. Letzteres ist allerdings im Gegensatz zu Tesseract und Ocropus nicht als Freie Software erhältlich.




