Ebenbürtiger Gegner

Ebenfalls populär ist antiword [3,4], das doc-Dateien entweder ins Textformat oder nach PostScript umwandelt. Besonders die Textkonvertierung ist gelungen, da sie das Maximum aus dem Format herausholt. Dabei gelingt es antiword, die Struktur so nah wie möglich am Original darzustellen (Abbildung 3), und selbst im Dokument enthaltene Grafiken finden mittels eines Platzhalters ([pic]) Erwähnung.

Abbildung 3: Von antiword erstellte Textversion

Will man auch die Grafiken sehen, empfiehlt sich die Konvertierung nach PostScript mittels

antiword -p a4 -i 3 dokument.doc > dokument.ps

Der Parameter -p legt dabei das Papierformat fest. Unabhängig davon, welches Image-Level (Parameter -i) genutzt wird, stellt antiword einige Grafiken leider nur verzerrt dar. Enthält das Dokument Euro-Zeichen, geben Sie mit dem zusätzlichen Parameter -m 8859-15 den passenden Zeichensatz an. Wer ein Dokument nicht langfristig speichern, sondern nur ausdrucken will, leitet es mittels

antiword -p a4 -i 3 dokument.doc | lp

gleich an den Drucker weiter.

Tabellenwandler

Sollten Sie den LinuxUser bereits eine Weile lesen, kennen Sie mit xlhtml [5,6] bereits ein Tool, welches Excel-Dateien nach HTML konvertiert. Mit dem Befehl

xlhtml tabelle.xls > tabelle.html

erstellen Sie eine mit jedem Browser lesbare HTML-Datei, und dank reichhaltiger Aufrufparameter haben Sie die Möglichkeit, nur einzelne Reihen (-xr), Spalten (-xc) oder Tabellenseiten (-xp) auszulesen. Nutzen Sie einen dieser Bereichsparameter, stehen Ihnen auch die reine Textausgabe (-asc) oder der Export in eine kommaseparierte Liste (-csv) zur Verfügung. Letztere kann man zum Beispiel in eine MySQL-Datenbank importieren.

Die Güte der Ergebnisse ist dabei durchwachsen und hängt stark vom Ausgangsdokument ab. Einfache Tabellen konvertiert xlhtml perfekt; weniger schön sieht es aus, wenn einzelne Zellen das Ergebnis von Berechnungen enhalten. Jede dieser Zellen zieren zwei @L: *, und in der Fußzeile informiert xlhtml den Nutzer, dass die Ergebnisse eventuell nicht korrekt seien. Dies jedoch stellte sich bei allen getesteten Dokumenten als Fehlalarm heraus. Noch nicht unterstützte Datenformate kennzeichnet der Konverter übrigens mit drei @L: *.

Wer das Pech hat, die Informationen der HTML-Ausgabe von xlhtml nicht lesen zu können, da das Programm schwarze Schrift auf schwarzem Grund produziert hat, kann den Aufrufparameter -nc ("no color") als Rettungsanker verwenden. Er sorgt für eine reine Schwarz-Weiß-Darstellung. Die Ursache für dieses seltsame Verhalten scheint sich in der Kreativität des Dokumenterstellers zu begründen, denn es trat reproduzierbar bei Dokumenten auf, deren einzelne Zellbereiche in vielen unterschiedlichen Hintergrundfarben gestaltet wurden. Betroffen von der Schwärzung waren jedoch nicht die bunten Zellbereiche, sondern nur jene mit ursprünglich weißem Hintergrund.

Große Excel-Arbeitsmappen bringen xlhtml, von kleinen Schönheitsfehlern abgesehen, nicht aus dem Tritt. Als Testdokument diente eine Excel-Mappe mit neun Tabellenblättern, auf welche sich weit über 2000 Datensätze verteilten. Der Befehl

xlhtml -nc rst.xls > restaurants.html

erzeugte eine HTML-Datei, die die einzelnen Tabellen übersichtlich hintereinander dargestellt aufführt (Abbildung 4).

Abbildung 4: Von xlhtml konvertierte Excel-Datei

Der in einigen Zellen zu lesende Text String Table Error bietet keinen Anlass zur Besorgnis, da die betroffenen Zellen zuvor leer waren. Er hängt vermutlich mit der Datentyp-Formatierung der Zellen im Ursprungsdokument zusammen.

Um sich einen Überblick über die in einer Excel-Datei gespeicherten Informationen zu verschaffen ist xlhtml durchaus brauchbar, da es keine Zelleninhalte auslässt oder falsch darstellt. Bei komplexen Dokumenten bleibt jedoch, auch wegen der sehr mitteilsamen Art von xlhtml, ein ungutes Gefühl, solange man das Konvertierungsergebnis nicht anhand des Originaldokuments kontrollieren kann.

Für Powerpoint-Dateien hat der Autor von xlhtml das Programm ppthtml beigelegt, welches jedoch eher eine Willenserklärung als eine Konvertierungslösung darstellt. Es extrahiert aus den ppt-Dateien lediglich den Text, und selbst dabei bleiben keinerlei Formatinformationen erhalten. Für Präsentationen, die gewöhnlich viele Bilder und Diagramme enthalten, stellt ppthtml daher leider noch keine brauchbare Lösung dar.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • out of the box
    Vor einiger Zeit stellten wir in dieser Rubrik antiword – einen Filter für Word-Dokumente – vor. Ein ähnlich brauchbares Stück Software für Excel-Tabellen fehlte bislang jedoch. Diese Lücke wird nun von xlhtml geschlossen.
  • Dateien nach HTML konvertieren
    Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.
  • out of the box
    Werden Sie auch des Öfteren von "lieben Kollegen" mit Word-Anhängen in E-Mails genervt? "out of the box" zeigt Ihnen, wie sie auch ohne Word und andere Speicherfresser "mal eben" ins Dokument hineinschauen.
  • Software
  • Dokumenten-Konvertierung auf der Konsole
Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Broadcom Adapter 802.11n nachinstallieren
Thomas Mengel, 31.10.2017 20:06, 2 Antworten
Hallo, kann man nachträglich auf einer Liveversion, MX Linux auf einem USB-Stick, nachträglich...
RUN fsck Manually / Stromausfall
Arno Krug, 29.10.2017 12:51, 1 Antworten
Hallo, nach Absturz des Rechners aufgrund fehlendem Stroms startet Linux nicht mehr wie gewohn...
source.list öffnet sich nicht
sebastian reimann, 27.10.2017 09:32, 2 Antworten
hallo Zusammen Ich habe das problem Das ich meine source.list nicht öffnen kann weiß vlt jemman...
Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 6 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...