CeBIT: Dokumente digital auslesen

- 17. März 2007

Texterkennung via Scanner gehört noch immer zu den großen Herausforderungen sowohl der Open-Source-Welt wie auch der kommerziellen Tools. Mit dem Projekt Ocropus startet das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) ein weiteres freies Projekt, dass diese Herausforderung annimmt. Das Programm, das in C++ und Python geschrieben ist und unter der Apache-2.0-Lizenz steht, erreicht eine Fehlerrate von zirka drei Prozent, womit es sich von der Erkennungsrate her zwischen den anderen freien Tools und den kommerziellen Mitbewerben einordnet.

Das Projekt basiert auf der Vorarbeit, die am DFKI im Rahmen der Forschung zur Handschriftenerkennung entstand sowie auf den Erkenntnissen, die die US-Regierung beim automatischen Erheben von Bevölkerungsdaten gewann. Aktuell unterstützt der Suchmaschinenbetreiber Google die Arbeit. Ein logischer Schritt angesichts der Bestrebungen des Unternehmens, große Buchbestände zu digitalisieren.

Ende März planen die Projektmitglieder den Release einer ersten Alphaversion. Wer nicht solange warten möchte, dem bietet die CeBIT 2007 eine Gelegenheit, einen Blick vorab auf die Software zu werfen. Die Mitglieder stehen mit einem Demostand in Halle 9 am Gemeinschaftsstand des Bundeslands Saarland.

Im Bereich der Texterkennung unter Linux hat sich in den vergangenen Monaten einiges getan. So setzt Google offensichtlich gleich auf mehrere Projekte. Neben Ocropus holte Google nämlich letztes Jahr die OCR-Software Tesseract aus der Versenkung. Das Unternehmen Nuance veröffentlichte sein Omnipage SDK für Linux. Letzteres ist allerdings im Gegensatz zu Tesseract und Ocropus nicht als Freie Software erhältlich.

IPFire 2.29 Core Update 202

Tim Schürmann

- 28. Mai 2026

Die neue Version der schlanken und flexiblen Firewall stopft die vor einigen Tagen entdeckten kritischen Sicherheitslücken im Kernel. Das Update von OpenVPN auf die Version 2.7 steigert zudem massiv den Durchsatz über VPN-Tunnel.

Was sonst noch unwichtig war in der Kalenderwoche 21/26

Was sonst noch unwichtig war

Tim Schürmann

- 23. Mai 2026

Fünf fabelhafte Fakten der Woche, die es irgendwie nicht zu einer Meldung auf Linux-Magazin Online geschafft haben – und warum eigentlich nicht. Oder mit den Worten einer namhaften KI: „Die Linux-Woche in Bits und Panik.“

WordPress 7.0 verbessert Backend-Optik und setzt auf KI

WordPress 7.0

Tim Schürmann

- 22. Mai 2026

Die Louis Armstrong gewidmete Version des Content-Management-Systems kommuniziert auf Wunsch mit generativer KI, zeigt ein leicht aufpoliertes Backend, erlaubt einen schnellen Blick in die Vergangenheit und kann die Schriftbibliothek in allen Themes nutzen.

Proxmox VE 9.2 bietet neuen dynamischen Load Balancer

Proxmox VE 9.2

Tim Schürmann

- 21. Mai 2026

Das Proxmox Virtual Environment bietet einen neuen Cluster Resource Scheduler (CRS) für das Load Balancing, verbessert das Software Defined Networking (SDN), verwaltet benutzerdefinierte CPUs über die Weboberfläche und erlaubt ein „disarm“ des HA-Managers.

Tails 7.8: Thunderbird ist nicht mehr standardmäßig dabei

Tails 7.8

Tim Schürmann

- 21. Mai 2026

Das Live-System Tails erlaubt das anonyme Surfen im Internet über das Tor-Netzwerk. Die neue Version 7.8 schmeißt Thunderbird von Bord – wer den E-Mail-Client benötigt, muss ihn ab sofort manuell nachinstallieren. Diese Maßnahme hat allerdings einen triftigen Grund.

CeBIT: Dokumente digital auslesen

CeBIT: Dokumente digital auslesen

Ähnliche Artikel

IPFire 2.29 Core Update 202

Was sonst noch unwichtig war

WordPress 7.0

Proxmox VE 9.2

Tails 7.8