Text aus Word-Dateien mit docx2txt extrahieren

Text aus Word-Dateien mit docx2txt extrahieren

Auf Entzug

Docx2txt verwandelt Office-Dokumente von Microsofts XML-Format in reinen Text. Version 1.0 macht das Kommandozeilenprogramm angenehmer zu benutzen.

Texte ohne Office-Anwendung aus einer Docx-Datei auszulesen ist jetzt mit Docx2txt einfacher denn je. Dazu dient unter anderem ein Wrapper-Skript für die Bash-Shell. Windows-Anwender erhalten Batch-Dateien für Installation und Aufruf. Eine benutzerspezifische Konfigurationsdatei speichert die erwünschte Zeilenlänge, den Newline-Modus und Einstellungen für die Einrückung.

Daneben lässt sich der Pfad für das Archivierungsprogramm wählen, mit dem das Zip-komprimierte Dokument geöffnet werden soll. Derzeit unterstützt docx2txt Unzip und das freie Dotnet-Tool CakeCmd, das auch beschädigte Archive verarbeiten soll. Eine vollständige CakeCmd-Integration mit dieser Option plant der Entwickler Sandeep Kumar für die kommende Version 1.1 seines Perl-basierten Programms.

Docx2txt steht auf der Projekt-Homepage unter GPLv3 als Tarball zum Download bereit.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben