Home / LinuxUser / 2003 / 05 / Kommandozeilenkonverter für Office-Formate

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(161 Punkte bei 4 Stimmen)
Mandriva in Nöten
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Verwandlungskünstler

Kommandozeilenkonverter für Office-Formate

Ebenbürtiger Gegner

Ebenfalls populär ist antiword [3,4], das doc-Dateien entweder ins Textformat oder nach PostScript umwandelt. Besonders die Textkonvertierung ist gelungen, da sie das Maximum aus dem Format herausholt. Dabei gelingt es antiword, die Struktur so nah wie möglich am Original darzustellen (Abbildung 3), und selbst im Dokument enthaltene Grafiken finden mittels eines Platzhalters ([pic]) Erwähnung.

Abbildung 3: Von antiword erstellte Textversion

Will man auch die Grafiken sehen, empfiehlt sich die Konvertierung nach PostScript mittels

antiword -p a4 -i 3 dokument.doc
 > dokument.ps

Der Parameter -p legt dabei das Papierformat fest. Unabhängig davon, welches Image-Level (Parameter -i) genutzt wird, stellt antiword einige Grafiken leider nur verzerrt dar. Enthält das Dokument Euro-Zeichen, geben Sie mit dem zusätzlichen Parameter -m 8859-15 den passenden Zeichensatz an. Wer ein Dokument nicht langfristig speichern, sondern nur ausdrucken will, leitet es mittels

antiword -p a4 -i 3 dokument.doc
 | lp

gleich an den Drucker weiter.

Tabellenwandler

Sollten Sie den LinuxUser bereits eine Weile lesen, kennen Sie mit xlhtml [5,6] bereits ein Tool, welches Excel-Dateien nach HTML konvertiert. Mit dem Befehl

xlhtml tabelle.xls
 > tabelle.html

erstellen Sie eine mit jedem Browser lesbare HTML-Datei, und dank reichhaltiger Aufrufparameter haben Sie die Möglichkeit, nur einzelne Reihen (-xr), Spalten (-xc) oder Tabellenseiten (-xp) auszulesen. Nutzen Sie einen dieser Bereichsparameter, stehen Ihnen auch die reine Textausgabe (-asc) oder der Export in eine kommaseparierte Liste (-csv) zur Verfügung. Letztere kann man zum Beispiel in eine MySQL-Datenbank importieren.

Die Güte der Ergebnisse ist dabei durchwachsen und hängt stark vom Ausgangsdokument ab. Einfache Tabellen konvertiert xlhtml perfekt; weniger schön sieht es aus, wenn einzelne Zellen das Ergebnis von Berechnungen enhalten. Jede dieser Zellen zieren zwei @L: *, und in der Fußzeile informiert xlhtml den Nutzer, dass die Ergebnisse eventuell nicht korrekt seien. Dies jedoch stellte sich bei allen getesteten Dokumenten als Fehlalarm heraus. Noch nicht unterstützte Datenformate kennzeichnet der Konverter übrigens mit drei @L: *.

Wer das Pech hat, die Informationen der HTML-Ausgabe von xlhtml nicht lesen zu können, da das Programm schwarze Schrift auf schwarzem Grund produziert hat, kann den Aufrufparameter -nc ("no color") als Rettungsanker verwenden. Er sorgt für eine reine Schwarz-Weiß-Darstellung. Die Ursache für dieses seltsame Verhalten scheint sich in der Kreativität des Dokumenterstellers zu begründen, denn es trat reproduzierbar bei Dokumenten auf, deren einzelne Zellbereiche in vielen unterschiedlichen Hintergrundfarben gestaltet wurden. Betroffen von der Schwärzung waren jedoch nicht die bunten Zellbereiche, sondern nur jene mit ursprünglich weißem Hintergrund.

Große Excel-Arbeitsmappen bringen xlhtml, von kleinen Schönheitsfehlern abgesehen, nicht aus dem Tritt. Als Testdokument diente eine Excel-Mappe mit neun Tabellenblättern, auf welche sich weit über 2000 Datensätze verteilten. Der Befehl

xlhtml -nc rst.xls
 > restaurants.html

erzeugte eine HTML-Datei, die die einzelnen Tabellen übersichtlich hintereinander dargestellt aufführt (Abbildung 4).

Abbildung 4: Von xlhtml konvertierte Excel-Datei

Der in einigen Zellen zu lesende Text String Table Error bietet keinen Anlass zur Besorgnis, da die betroffenen Zellen zuvor leer waren. Er hängt vermutlich mit der Datentyp-Formatierung der Zellen im Ursprungsdokument zusammen.

Um sich einen Überblick über die in einer Excel-Datei gespeicherten Informationen zu verschaffen ist xlhtml durchaus brauchbar, da es keine Zelleninhalte auslässt oder falsch darstellt. Bei komplexen Dokumenten bleibt jedoch, auch wegen der sehr mitteilsamen Art von xlhtml, ein ungutes Gefühl, solange man das Konvertierungsergebnis nicht anhand des Originaldokuments kontrollieren kann.

Für Powerpoint-Dateien hat der Autor von xlhtml das Programm ppthtml beigelegt, welches jedoch eher eine Willenserklärung als eine Konvertierungslösung darstellt. Es extrahiert aus den ppt-Dateien lediglich den Text, und selbst dabei bleiben keinerlei Formatinformationen erhalten. Für Präsentationen, die gewöhnlich viele Bilder und Diagramme enthalten, stellt ppthtml daher leider noch keine brauchbare Lösung dar.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

Hits
Wertung: 0 Punkte (0 Stimmen)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 06/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...