Kommandozeilenkonverter für Office-Formate

Verwandlungskünstler

Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.

Trotz vielfacher Bitten schickt Ihnen Ihr Geschäftspartner grundsätzlich MS-Word-Dokumente? Sie haben für einen schnellen Blick in eine StarWriter-Datei keine Lust, fünf Minuten zu warten, bis das Office-Paket endlich gestartet ist? Man muss nicht grundsätzlich eine Abneigung gegen riesige Office-Suites haben, um deren spezifische Formate in etwas schneller und/oder allgemeiner Lesbares umwandeln zu wollen.

Für die Lösung dieses Problems sorgen diverse Konvertierungsprogramme für die Kommandozeile, und deren gibt es gar nicht mal so wenige. Tabelle 1 verschafft einen Überblick: Sie enthält auch Anwendungen, die dieser Artikel nicht ausführlich bespricht.

Tabelle 1: Office-Konvertierer für die Kommandozeile

Name Leistungsumfang Qualität der Ergebnisse
o3read Wandelt sxw- und sxc-Dateien in Text oder HTML. Siehe Text.
sxw2html [8] und sxw2txt [9] Konvertierung von sxw-Dateien nach Text oder HTML per Shellskript. Zur HTML-Anzeige wird lynx gestartet. Struktur bleibt erhalten, Formatierung nicht. Mangels Zeichensatzkonvertierung Probleme bei der Darstellung von Umlauten.
sdw2txt [10] Konvertiert StarWriter-5.x-Dateien in Text. Dokumentstruktur bleibt teilweise erhalten. Teile des Dokuments werden unterschlagen, z. B. Tabellen oder Absender bei Briefen. Nur für einfache Dokumente brauchbar.
wv Konvertiert Word-Dateien in eine Vielzahl von Formaten. Siehe Text.
antiword Wandelt Word-Dateien nach Text oder Postscript. Siehe Text.
catdoc [11] Konvertiert Word-Dateien in Text. Dem Programm liegt ein auf der Tk-Bibliothek basierender Viewer für die Ausgabe und ein Tool zum Umwandeln von Excel-Dateien in Komma-separierte Listen bei. Dokumentstruktur bleibt teilweise erhalten. Dennoch nicht besonders gut für Formulare oder Tabellen geeignet, da die Ausgabe zu unübersichlich ist.
xlhtml Umwandlung von Excel-Dokumenten in HTML-Dateien, Umwandlung einzelner Bereich auch in reinen Text möglich. ppthtml extrahiert Text aus Powerpoint-Dateien. Siehe Text.
chmlib Konvertiert unter Windows verbreitete Hilfe-Dateien im chm-Format in mehrere HTML-Dateien. Siehe Text.
wp2x [12] Konvertiert Word-Perfect-5.1-Dateien in unterschiedliche Formate. Dokumentstruktur und Formatierungen bleiben größtenteils erhalten. Eingeschränkter Nutzwert durch Seltenheit des Ursprungsformats.

OpenOffice und StarOffice

Trotz der Tatsache, dass Open- und StarOffice unter Linux zur Verfügung stehen, hat nicht jeder diese nicht gerade schlanken Pakete installiert. Eine schnelle Möglichkeit, um sich einen Überblick über den Inhalt der damit erzeugten Dokumente zu verschaffen, bietet o3read [1]. Dieses Tool weiß sowohl mit Dokumenten der Textverarbeitung als auch mit denen der Tabellenkalkulation umzugehen.

Das o3read-Paket bringt drei Ausgabemodule mit, wovon o3tohtml die besten Ergebnisse liefert. Daneben gibt es das Programm o3totxt, welches die Dokumente in Text umwandelt, und o3read selbst, das tabellarisch die verwendeten XML-Tags und deren Werte ausgibt.

An die Bedienung der drei Programme muss man sich erst einmal gewöhnen, denn sie können mit sxw- und sxc-Dateien nichts anfangen. Bei diesen, mit OpenOffice und StarOffice ab Version 6.0 erstellten Textverarbeitungs- und Tabellenkalkulationsdateien handelt es sich um komprimierte Archive. Packt man sie aus, kommen xml-Dateien zum Vorschein. Der Inhalt des Dokuments befindet sich in content.xml.

Die o3read-Tools überlassen das Entpacken des Archivs dem Benutzer. Der benötigt zu diesem Zweck das Programm unzip. Auf die content.xml-Datei lässt sich o3tohtml folgendermaßen anwenden:

unzip -p dokument.sxw content.xml | o3tohtml > dokument.html

Dieser Befehl holt die Datei context.xml aus dem Star- bzw. OpenWriter-Dokument dokument.sxw auf die Standardausgabe. Die Pipe () reicht ihren Inhalt an o3tohtml weiter. Dessen Ausgabe leitet der "Pfeil" > in eine Datei namens dokument.html um.

Auch die anderen beiden Ausgabemodule des o3read-Pakets rufen Sie am besten in dieser Form auf. Sollten Sie nach der Konvertierung feststellen, dass Umlaute und Sonderzeichen nicht richtig dargestellt werden, liegt das daran, dass das Ursprungsdokument UTF8-kodiert war. Auch für diesen Fall ist vorgesorgt: Das bei o3read mitgelieferte Hilfsprogramm utf8tolatin1 schafft Abhilfe. Der Aufruf sieht dann so aus:

unzip -p tabelle.sxc content.xml | o3tohtml | utf8tolatin1 > tabelle.html

Die Ausgabe von o3tohtml reicht die Pipe an utf8tolatin1 weiter, welches für die Zeichensatzkonvertierung sorgt, bevor die Ausgabe in eine Datei erfolgt.

Schaut man sich die Arbeitsweise der Programme an, wird gleich auch deren Schwäche deutlich. sxw- und sxc-Archive bestehen noch aus weiteren xml-Dateien, die Meta-Informationen zu den Dokumenten speichern, ebenso können sie Unterordner mit eingebetteten Bildern enthalten. Auf all diese Formatinformationen müssen Sie bislang bei einer Konvertierung verzichten. Einige Formatierungen wie kursiver oder unterstrichener Text bleiben jedoch ebenso erhalten wie die grundlegende Struktur eines Dokuments.

Für Tabellen ist o3totxt nicht zu gebrauchen: Da die Ausgabe zeilenweise erfolgt, geht dabei jede Übersicht verloren. Dafür punktet o3tohtml in dieser Disziplin mit sehr ansprechenden Ergebnissen.

Wort-Konversion

Um maßlose Verwunderung im Bekanntenkreis zu wecken, reicht ein beherztes "Isch 'abe gar kein Word" meistens völlig aus. Fast jedem neuerworbenen PC beiliegend, stellt Microsoft Word den De-facto-Standard auf dem Gebiet der Textverarbeitung dar. Aufgrund dieser großen Verbreitung ist es nicht verwunderlich, dass für die Office-Anwendung die meisten Konverter existieren. Obwohl Microsoft das Word-Format nicht offenlegt, müssen die sich ihrer Leistung nicht schämen. Den populärsten Vertreter stellt wohl wv [2] dar.

Mehr als 15 Einzelprogramme bringt dieses Paket mit. Einige bieten Ausgaben rein informativer Natur, etwa wvVersion, welches ermittelt, mit welcher Word-Version ein Dokument erstellt wurde. wvSummary gibt für alle MS-Office-Dokumente Informationen wie Titel und Autor aus. Der überwiegende Teil der Anwendungen arbeitet jedoch als Ausgabemodul. Deren Namen sind selbsterklärend: So wandelt wvHtml Word-Dateien ins HTML-Format, wvLatex überführt sie hingegen in eine tex-Datei. Weitere Ausgabemodule übernehmen die Umwandlung nach PostScript, RTF oder DVI, wobei sich manche Module externer Hilfsprogramme bedienen. Ihr Aufruf ist denkbar einfach:

wvHtml dokument.doc dokument.html

Vergessen Sie dabei nicht, die Dateiendung der Ausgabedatei je nach verwendetem Modul anzupassen.

Den Zugriff auf eine mit Passwort geschützte Word-Datei erlaubt wvWare. Der Befehl

wvWare -p Geheim dokument.doc > dokument.html

wandelt das mit dem Passwort Geheim geschützte File dokument.doc nach HTML. Da wvWare im Gegensatz zu den einzelnen Ausgabemodulen auf die Standardausgabe schreibt, ist die Umleitung in eine Datei nötig.

Die wv-Programme liefern durchgehend gute Ergebnisse (Abbildungen 1 und 2), bei denen sowohl die Dokumentstruktur, als auch Grafiken und Formatierungen erhalten bleiben, sofern das gewählte Ausgabeformat dies zulässt.

Abbildung 1: Das ursprüngliche Word-Formular …
Abbildung 2: … und die von wvHtml konvertierte Version

Je nach Dokument lohnt es sich, mit verschiedenen Ausgabeformaten zu experimentieren. Die beste Darstellung eingebundener Grafiken erreicht man mit wvPDF, welches jedoch alle im Text vorkommenden Euro-Zeichen unterschlägt. Für Dokumente mit Preistabellen ist daher wvHtml die bessere Wahl.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • out of the box
    Vor einiger Zeit stellten wir in dieser Rubrik antiword – einen Filter für Word-Dokumente – vor. Ein ähnlich brauchbares Stück Software für Excel-Tabellen fehlte bislang jedoch. Diese Lücke wird nun von xlhtml geschlossen.
  • Dateien nach HTML konvertieren
    Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.
  • out of the box
    Werden Sie auch des Öfteren von "lieben Kollegen" mit Word-Anhängen in E-Mails genervt? "out of the box" zeigt Ihnen, wie sie auch ohne Word und andere Speicherfresser "mal eben" ins Dokument hineinschauen.
  • Software
  • Dokumenten-Konvertierung auf der Konsole
Kommentare

Infos zur Publikation

LU 11/2017: Server für Daheim

Digitale Ausgabe: Preis € 8,50
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 3 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...
Backup mit KUP unter Suse 42.3
Horst Schwarz, 24.09.2017 13:16, 3 Antworten
Ich möchte auch wieder unter Suse 42.3 mit Kup meine Backup durchführen. Eine Installationsmöglic...
kein foto, etc. upload möglich, wo liegt mein fehler?
kerstin brums, 17.09.2017 22:08, 5 Antworten
moin, zum erstellen einer einfachen wordpress website kann ich keine fotos uploaden. vom rechne...
Arch Linux Netzwerkkonfigurationen
Franziska Schley, 15.09.2017 18:04, 0 Antworten
Moin liebe Linux community, ich habe momentan Probleme mit der Einstellung des Lan/Wlan in Arc...