Home / LinuxUser / 2003 / 05 / Kommandozeilenkonverter für Office-Formate

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

War doch klar...
(243 Punkte bei 15 Stimmen)
Re: War doch klar...
(179 Punkte bei 5 Stimmen)
Re: Skype für 64-Bit-Prozessor u. Suse 12.1
(161 Punkte bei 4 Stimmen)
Kubuntu verliert Finanzierung
(130 Punkte bei 4 Stimmen)
Offen fürs Geschäft
(80 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Verwandlungskünstler

Kommandozeilenkonverter für Office-Formate

01.05.2003 Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.

Trotz vielfacher Bitten schickt Ihnen Ihr Geschäftspartner grundsätzlich MS-Word-Dokumente? Sie haben für einen schnellen Blick in eine StarWriter-Datei keine Lust, fünf Minuten zu warten, bis das Office-Paket endlich gestartet ist? Man muss nicht grundsätzlich eine Abneigung gegen riesige Office-Suites haben, um deren spezifische Formate in etwas schneller und/oder allgemeiner Lesbares umwandeln zu wollen.

Für die Lösung dieses Problems sorgen diverse Konvertierungsprogramme für die Kommandozeile, und deren gibt es gar nicht mal so wenige. Tabelle 1 verschafft einen Überblick: Sie enthält auch Anwendungen, die dieser Artikel nicht ausführlich bespricht.

Tabelle 1: Office-Konvertierer für die Kommandozeile

Name

Leistungsumfang

Qualität der Ergebnisse

  Wandelt sxw- und sxc-Dateien in Text oder HTML. Siehe Text.
sxw2html [8] und sxw2txt [9] Konvertierung von sxw-Dateien nach Text oder HTML per Shellskript. Zur HTML-Anzeige wird lynx gestartet. Struktur bleibt erhalten, Formatierung nicht. Mangels Zeichensatzkonvertierung Probleme bei der Darstellung von Umlauten.
sdw2txt [10] Konvertiert StarWriter-5.x-Dateien in Text. Dokumentstruktur bleibt teilweise erhalten. Teile des Dokuments werden unterschlagen, z. B. Tabellen oder Absender bei Briefen. Nur für einfache Dokumente brauchbar.
  Konvertiert Word-Dateien in eine Vielzahl von Formaten. Siehe Text.
  Wandelt Word-Dateien nach Text oder Postscript. Siehe Text.
catdoc [11] Konvertiert Word-Dateien in Text. Dem Programm liegt ein auf der Tk-Bibliothek basierender Viewer für die Ausgabe und ein Tool zum Umwandeln von Excel-Dateien in Komma-separierte Listen bei. Dokumentstruktur bleibt teilweise erhalten. Dennoch nicht besonders gut für Formulare oder Tabellen geeignet, da die Ausgabe zu unübersichlich ist.
  Umwandlung von Excel-Dokumenten in HTML-Dateien, Umwandlung einzelner Bereich auch in reinen Text möglich. ppthtml extrahiert Text aus Powerpoint-Dateien. Siehe Text.
  Konvertiert unter Windows verbreitete Hilfe-Dateien im chm-Format in mehrere HTML-Dateien. Siehe Text.
wp2x [12] Konvertiert Word-Perfect-5.1-Dateien in unterschiedliche Formate. Dokumentstruktur und Formatierungen bleiben größtenteils erhalten. Eingeschränkter Nutzwert durch Seltenheit des Ursprungsformats.

OpenOffice und StarOffice

Trotz der Tatsache, dass Open- und StarOffice unter Linux zur Verfügung stehen, hat nicht jeder diese nicht gerade schlanken Pakete installiert. Eine schnelle Möglichkeit, um sich einen Überblick über den Inhalt der damit erzeugten Dokumente zu verschaffen, bietet o3read [1]. Dieses Tool weiß sowohl mit Dokumenten der Textverarbeitung als auch mit denen der Tabellenkalkulation umzugehen.

Das o3read-Paket bringt drei Ausgabemodule mit, wovon o3tohtml die besten Ergebnisse liefert. Daneben gibt es das Programm o3totxt, welches die Dokumente in Text umwandelt, und o3read selbst, das tabellarisch die verwendeten XML-Tags und deren Werte ausgibt.

An die Bedienung der drei Programme muss man sich erst einmal gewöhnen, denn sie können mit sxw- und sxc-Dateien nichts anfangen. Bei diesen, mit OpenOffice und StarOffice ab Version 6.0 erstellten Textverarbeitungs- und Tabellenkalkulationsdateien handelt es sich um komprimierte Archive. Packt man sie aus, kommen xml-Dateien zum Vorschein. Der Inhalt des Dokuments befindet sich in content.xml.

Die o3read-Tools überlassen das Entpacken des Archivs dem Benutzer. Der benötigt zu diesem Zweck das Programm unzip. Auf die content.xml-Datei lässt sich o3tohtml folgendermaßen anwenden:

unzip -p dokument.sxw
 content.xml | o3tohtml > dokument.html

Dieser Befehl holt die Datei context.xml aus dem Star- bzw. OpenWriter-Dokument dokument.sxw auf die Standardausgabe. Die Pipe () reicht ihren Inhalt an o3tohtml weiter. Dessen Ausgabe leitet der "Pfeil" > in eine Datei namens dokument.html um.

Auch die anderen beiden Ausgabemodule des o3read-Pakets rufen Sie am besten in dieser Form auf. Sollten Sie nach der Konvertierung feststellen, dass Umlaute und Sonderzeichen nicht richtig dargestellt werden, liegt das daran, dass das Ursprungsdokument UTF8-kodiert war. Auch für diesen Fall ist vorgesorgt: Das bei o3read mitgelieferte Hilfsprogramm utf8tolatin1 schafft Abhilfe. Der Aufruf sieht dann so aus:

unzip -p tabelle.sxc
 content.xml | o3tohtml | utf8tolatin1 > tabelle.html

Die Ausgabe von o3tohtml reicht die Pipe an utf8tolatin1 weiter, welches für die Zeichensatzkonvertierung sorgt, bevor die Ausgabe in eine Datei erfolgt.

Schaut man sich die Arbeitsweise der Programme an, wird gleich auch deren Schwäche deutlich. sxw- und sxc-Archive bestehen noch aus weiteren xml-Dateien, die Meta-Informationen zu den Dokumenten speichern, ebenso können sie Unterordner mit eingebetteten Bildern enthalten. Auf all diese Formatinformationen müssen Sie bislang bei einer Konvertierung verzichten. Einige Formatierungen wie kursiver oder unterstrichener Text bleiben jedoch ebenso erhalten wie die grundlegende Struktur eines Dokuments.

Für Tabellen ist o3totxt nicht zu gebrauchen: Da die Ausgabe zeilenweise erfolgt, geht dabei jede Übersicht verloren. Dafür punktet o3tohtml in dieser Disziplin mit sehr ansprechenden Ergebnissen.

Wort-Konversion

Um maßlose Verwunderung im Bekanntenkreis zu wecken, reicht ein beherztes "Isch 'abe gar kein Word" meistens völlig aus. Fast jedem neuerworbenen PC beiliegend, stellt Microsoft Word den De-facto-Standard auf dem Gebiet der Textverarbeitung dar. Aufgrund dieser großen Verbreitung ist es nicht verwunderlich, dass für die Office-Anwendung die meisten Konverter existieren. Obwohl Microsoft das Word-Format nicht offenlegt, müssen die sich ihrer Leistung nicht schämen. Den populärsten Vertreter stellt wohl wv [2] dar.

Mehr als 15 Einzelprogramme bringt dieses Paket mit. Einige bieten Ausgaben rein informativer Natur, etwa wvVersion, welches ermittelt, mit welcher Word-Version ein Dokument erstellt wurde. wvSummary gibt für alle MS-Office-Dokumente Informationen wie Titel und Autor aus. Der überwiegende Teil der Anwendungen arbeitet jedoch als Ausgabemodul. Deren Namen sind selbsterklärend: So wandelt wvHtml Word-Dateien ins HTML-Format, wvLatex überführt sie hingegen in eine tex-Datei. Weitere Ausgabemodule übernehmen die Umwandlung nach PostScript, RTF oder DVI, wobei sich manche Module externer Hilfsprogramme bedienen. Ihr Aufruf ist denkbar einfach:

wvHtml dokument.doc
 dokument.html

Vergessen Sie dabei nicht, die Dateiendung der Ausgabedatei je nach verwendetem Modul anzupassen.

Den Zugriff auf eine mit Passwort geschützte Word-Datei erlaubt wvWare. Der Befehl

wvWare -p Geheim
 dokument.doc
 > dokument.html

wandelt das mit dem Passwort Geheim geschützte File dokument.doc nach HTML. Da wvWare im Gegensatz zu den einzelnen Ausgabemodulen auf die Standardausgabe schreibt, ist die Umleitung in eine Datei nötig.

Die wv-Programme liefern durchgehend gute Ergebnisse (Abbildungen 1 und 2), bei denen sowohl die Dokumentstruktur, als auch Grafiken und Formatierungen erhalten bleiben, sofern das gewählte Ausgabeformat dies zulässt.

Abbildung 1: Das ursprüngliche Word-Formular …

Abbildung 2: … und die von wvHtml konvertierte Version

Je nach Dokument lohnt es sich, mit verschiedenen Ausgabeformaten zu experimentieren. Die beste Darstellung eingebundener Grafiken erreicht man mit wvPDF, welches jedoch alle im Text vorkommenden Euro-Zeichen unterschlägt. Für Dokumente mit Preistabellen ist daher wvHtml die bessere Wahl.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

620 Hits
Wertung: 0 Punkte (0 Stimmen)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 03/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Duden Korrektor unter 64-Bit
Duden Korrektor unter 64-Bit
Tim Schürmann, 06.02.2012 10:36, 0 Kommentare

Der Duden Korrektor bietet eine äußerst nützliche Rechtschreib- und Grammatikkorrektur für LibreOffice und bringt in der aktuellen Version 8 e...

Aktuelle Fragen

Ubuntu 11.10 Compiz 3D Cube flackern
Moritz Obenauer, 12.02.2012 12:25, 0 Antworten
Hallo! Ich habe Ubuntu 11.10 mit Unity und den Compiz 3D Cube ein gerichtet. Er funktioniert...
Suse 12.1 Bootvorgang bleibt seit Update stehen
Wimpy *, 12.02.2012 09:22, 2 Antworten
Seit Update auf Kernel 3.1.9-1.4-desktop i686 bleibt der Bootvorgang stehen. Es erscheint der gr...
N24 Stick (Huawei E173) und Ubuntu 11.04
Patrick Obenauer, 11.02.2012 11:54, 1 Antworten
Hallo zusammen! Ich benutze einen alten Laptop, der mit Ubuntu 11.04 flott und problemlos läuft....
Wie kann man beim Einsatz von Compiz die Fenster-Dekoration einstellen?
GoaSkin , 10.02.2012 20:12, 0 Antworten
Hallo, ich nutze Linux Mint mit dem Gnome-Derivat Mate. Da die Distribution Compiz nicht autom...
rndc reload zone - failed bad zone
Ludwig jun. B., 06.02.2012 16:08, 2 Antworten
Schönen guten Tag, ich habe folgendes Problem. Immer wenn ich folgendes Kommando ausführen bek...