Open-Source-Texterkennung Tesseract

- 05. September 2006

Die OCR-Software (Optical Character Recognition) Tesseract erblickt erneut das Licht der Welt. Tesseract wurde ursprünglich von Hewlett Packard entwickelt und der Community bereits 2005 als Open Source zur Verfügung gestellt. Allerdings fristete die Software, die Text aus Bildern extrahiert, bislang ein Nischendasein. Erst der Suchmaschinenbetreiber Google nahm sich der Software an und entwickelte sie weiter.

Seit einigen Monaten gibt es ein Tesseract-Sourceforge-Projekt und eine Version 1.0. Erst jetzt kündigte Google die “Re-Release” der unter der Apache-Lizenz veröffentlichten Software offiziell an. Die Engine hat schon über 20 Jahre auf dem Buckel, sie wurde zwischen 1985 und 1995 von HP entwickelt und lag dann fast zehn Jahre lang auf Halde. Trotzdem bezeichnet Google Tesseract als die genaueste freie OCR-Software, die es gibt. Einige Einschränkungen müssen Benutzer allerdings hinnehmen:

Tesseract “versteht” nur Englisch.
Es gibt noch kein Seiten-Layout-Modul, Tesseract erkennt nur einspaltige Texte.
Es arbeitet nicht annähernd so genau wie die kommerzielle Konkurrenz.
Die Software hat noch Probleme mit Farb- und Graustufenbildern.
Es gibt nur eine Kommandozeilenoberfläche.

Das sieht noch nach viel Arbeit aus, die Google vor sich hat. Das scheint ein Grund zu sein, warum die Firma einen OCR-Entwickler sucht. Warum Google gerade an OCR-Software interessiert ist, liegt auf der Hand: Der Suchmaschinenspezialist arbeitet seit vielen Jahren daran, auch gedruckte Informationen digital zur Verfügung zu stellen. In der Buchsuche können Anwender schon jetzt eine Vielzahl an Büchern durchsuchen.

In einem ersten Test der Redaktion bestätigte Tesseract die oben beschriebenen Mängel, selbst das Auslesen von Text aus einem einfachen TIFF-Bild resultiere nur in einer leeren Textdatei. Es bleibt zu hoffen, dass Googles neuer Entwickler das Tool bald verbessert, damit es in Zukunft eine konkurrenzfähige Open-Source-OCR-Engine gibt.

IPFire 2.29 Core Update 202

Tim Schürmann

- 28. Mai 2026

Die neue Version der schlanken und flexiblen Firewall stopft die vor einigen Tagen entdeckten kritischen Sicherheitslücken im Kernel. Das Update von OpenVPN auf die Version 2.7 steigert zudem massiv den Durchsatz über VPN-Tunnel.

Was sonst noch unwichtig war in der Kalenderwoche 21/26

Was sonst noch unwichtig war

Tim Schürmann

- 23. Mai 2026

Fünf fabelhafte Fakten der Woche, die es irgendwie nicht zu einer Meldung auf Linux-Magazin Online geschafft haben – und warum eigentlich nicht. Oder mit den Worten einer namhaften KI: „Die Linux-Woche in Bits und Panik.“

WordPress 7.0 verbessert Backend-Optik und setzt auf KI

WordPress 7.0

Tim Schürmann

- 22. Mai 2026

Die Louis Armstrong gewidmete Version des Content-Management-Systems kommuniziert auf Wunsch mit generativer KI, zeigt ein leicht aufpoliertes Backend, erlaubt einen schnellen Blick in die Vergangenheit und kann die Schriftbibliothek in allen Themes nutzen.

Proxmox VE 9.2 bietet neuen dynamischen Load Balancer

Proxmox VE 9.2

Tim Schürmann

- 21. Mai 2026

Das Proxmox Virtual Environment bietet einen neuen Cluster Resource Scheduler (CRS) für das Load Balancing, verbessert das Software Defined Networking (SDN), verwaltet benutzerdefinierte CPUs über die Weboberfläche und erlaubt ein „disarm“ des HA-Managers.

Tails 7.8: Thunderbird ist nicht mehr standardmäßig dabei

Tails 7.8

Tim Schürmann

- 21. Mai 2026

Das Live-System Tails erlaubt das anonyme Surfen im Internet über das Tor-Netzwerk. Die neue Version 7.8 schmeißt Thunderbird von Bord – wer den E-Mail-Client benötigt, muss ihn ab sofort manuell nachinstallieren. Diese Maßnahme hat allerdings einen triftigen Grund.

E-Mail Benachrichtigung

2 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen

Peter Sütterlin

19 Jahre her

Hmm, also ich hab sie gestern mal einem Quick-Test unterzogen. Ging um eine Tabelle (8 Spalten, ca. 30 Zeilen). Ich hatte im Ergebnis 3 falsch (zusätzlich) erkannte Zeichen und einen übersehenen Dezimalpunkt. Dafür daß ich mir beim Scannen nicht sonderlich Mühe gegeben hatte find ich es doch ganz beachtlich….

Pit

Antworten

OldSpeckledHen

16 Jahre her

Unter http://www.ocr4linux.com gibt es jetzt von ABBYY eine CLI OCR für Linux, die mehrspaltige Layouts als auch Dokumente in mehreren Sprachen erkennt. Da neben reinen TXT Formaten auch in RTF, HTML und durchsuchbaren PDFs exportiert werden kann, ist das endlich mal eine richtig gute Alternative für Linux, wenn man die gescannten Dokumente auch weiterverarbeiten oder archivieren will.
Ist zwar nicht OS, aber da es eine kostenlose Trial gibt, kann man zumindest vorher testen.

Open-Source-Texterkennung Tesseract

Open-Source-Texterkennung Tesseract

Ähnliche Artikel

IPFire 2.29 Core Update 202

Was sonst noch unwichtig war

WordPress 7.0

Proxmox VE 9.2

Tails 7.8