Ebenbürtiger Gegner

Ebenfalls populär ist antiword [3,4], das doc-Dateien entweder ins Textformat oder nach PostScript umwandelt. Besonders die Textkonvertierung ist gelungen, da sie das Maximum aus dem Format herausholt. Dabei gelingt es antiword, die Struktur so nah wie möglich am Original darzustellen (Abbildung 3), und selbst im Dokument enthaltene Grafiken finden mittels eines Platzhalters ([pic]) Erwähnung.

Abbildung 3: Von antiword erstellte Textversion

Will man auch die Grafiken sehen, empfiehlt sich die Konvertierung nach PostScript mittels

antiword -p a4 -i 3 dokument.doc > dokument.ps

Der Parameter -p legt dabei das Papierformat fest. Unabhängig davon, welches Image-Level (Parameter -i) genutzt wird, stellt antiword einige Grafiken leider nur verzerrt dar. Enthält das Dokument Euro-Zeichen, geben Sie mit dem zusätzlichen Parameter -m 8859-15 den passenden Zeichensatz an. Wer ein Dokument nicht langfristig speichern, sondern nur ausdrucken will, leitet es mittels

antiword -p a4 -i 3 dokument.doc | lp

gleich an den Drucker weiter.

Tabellenwandler

Sollten Sie den LinuxUser bereits eine Weile lesen, kennen Sie mit xlhtml [5,6] bereits ein Tool, welches Excel-Dateien nach HTML konvertiert. Mit dem Befehl

xlhtml tabelle.xls > tabelle.html

erstellen Sie eine mit jedem Browser lesbare HTML-Datei, und dank reichhaltiger Aufrufparameter haben Sie die Möglichkeit, nur einzelne Reihen (-xr), Spalten (-xc) oder Tabellenseiten (-xp) auszulesen. Nutzen Sie einen dieser Bereichsparameter, stehen Ihnen auch die reine Textausgabe (-asc) oder der Export in eine kommaseparierte Liste (-csv) zur Verfügung. Letztere kann man zum Beispiel in eine MySQL-Datenbank importieren.

Die Güte der Ergebnisse ist dabei durchwachsen und hängt stark vom Ausgangsdokument ab. Einfache Tabellen konvertiert xlhtml perfekt; weniger schön sieht es aus, wenn einzelne Zellen das Ergebnis von Berechnungen enhalten. Jede dieser Zellen zieren zwei @L: *, und in der Fußzeile informiert xlhtml den Nutzer, dass die Ergebnisse eventuell nicht korrekt seien. Dies jedoch stellte sich bei allen getesteten Dokumenten als Fehlalarm heraus. Noch nicht unterstützte Datenformate kennzeichnet der Konverter übrigens mit drei @L: *.

Wer das Pech hat, die Informationen der HTML-Ausgabe von xlhtml nicht lesen zu können, da das Programm schwarze Schrift auf schwarzem Grund produziert hat, kann den Aufrufparameter -nc ("no color") als Rettungsanker verwenden. Er sorgt für eine reine Schwarz-Weiß-Darstellung. Die Ursache für dieses seltsame Verhalten scheint sich in der Kreativität des Dokumenterstellers zu begründen, denn es trat reproduzierbar bei Dokumenten auf, deren einzelne Zellbereiche in vielen unterschiedlichen Hintergrundfarben gestaltet wurden. Betroffen von der Schwärzung waren jedoch nicht die bunten Zellbereiche, sondern nur jene mit ursprünglich weißem Hintergrund.

Große Excel-Arbeitsmappen bringen xlhtml, von kleinen Schönheitsfehlern abgesehen, nicht aus dem Tritt. Als Testdokument diente eine Excel-Mappe mit neun Tabellenblättern, auf welche sich weit über 2000 Datensätze verteilten. Der Befehl

xlhtml -nc rst.xls > restaurants.html

erzeugte eine HTML-Datei, die die einzelnen Tabellen übersichtlich hintereinander dargestellt aufführt (Abbildung 4).

Abbildung 4: Von xlhtml konvertierte Excel-Datei

Der in einigen Zellen zu lesende Text String Table Error bietet keinen Anlass zur Besorgnis, da die betroffenen Zellen zuvor leer waren. Er hängt vermutlich mit der Datentyp-Formatierung der Zellen im Ursprungsdokument zusammen.

Um sich einen Überblick über die in einer Excel-Datei gespeicherten Informationen zu verschaffen ist xlhtml durchaus brauchbar, da es keine Zelleninhalte auslässt oder falsch darstellt. Bei komplexen Dokumenten bleibt jedoch, auch wegen der sehr mitteilsamen Art von xlhtml, ein ungutes Gefühl, solange man das Konvertierungsergebnis nicht anhand des Originaldokuments kontrollieren kann.

Für Powerpoint-Dateien hat der Autor von xlhtml das Programm ppthtml beigelegt, welches jedoch eher eine Willenserklärung als eine Konvertierungslösung darstellt. Es extrahiert aus den ppt-Dateien lediglich den Text, und selbst dabei bleiben keinerlei Formatinformationen erhalten. Für Präsentationen, die gewöhnlich viele Bilder und Diagramme enthalten, stellt ppthtml daher leider noch keine brauchbare Lösung dar.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • out of the box
    Vor einiger Zeit stellten wir in dieser Rubrik antiword – einen Filter für Word-Dokumente – vor. Ein ähnlich brauchbares Stück Software für Excel-Tabellen fehlte bislang jedoch. Diese Lücke wird nun von xlhtml geschlossen.
  • Dateien nach HTML konvertieren
    Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.
  • out of the box
    Werden Sie auch des Öfteren von "lieben Kollegen" mit Word-Anhängen in E-Mails genervt? "out of the box" zeigt Ihnen, wie sie auch ohne Word und andere Speicherfresser "mal eben" ins Dokument hineinschauen.
  • Software
  • Dokumenten-Konvertierung auf der Konsole
Kommentare

Infos zur Publikation

LU 01/2018: FLINKE BROWSER

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Suchprogramm
Heiko Taeuber, 17.01.2018 21:12, 1 Antworten
Hallo liebe Community, keine Ahnung ob dieses Thema hier schon einmal gepostet wurde. Ich hab...
Linux Mint als Zweitsystem
Wolfgang Robert Luhn, 13.01.2018 19:28, 4 Antworten
Wer kann mir helfen??? Habe einen neuen Laptop mit vorinstaliertem Windows 10 gekauft. Möchte g...
externe soundkarte Kaufempfehlung
lara grafstr , 13.01.2018 10:20, 3 Antworten
Hallo Ich bin auf Suche nach einer externen soundkarte.. Max 150 Euro Die Wiedergabe is...
Prozessor-Sicherheitslücke Meltdown und Spectre
Wimpy *, 06.01.2018 10:45, 2 Antworten
Ich habe heute ein Sicherheitsupdate "ucode-intel" für openSuse 42.3 erhalten. Ist damit das Prob...
LENOVO ideapad320 Touchpad Linux Mint 18
Peter Deppen, 23.12.2017 16:49, 3 Antworten
Hallo, bin Linux Anfänger und habe das Problem, dass das Touchpad auf dem LENOVO ideapad320 mit L...