*2html

Dateien nach HTML konvertieren

01.11.2001
Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.

Interessant ist bei der Konvertierung verschiedenster Dokumenttypen nach HTML nicht nur das "wie" sondern auch das "wie gut": So verfügen die meisten Office-Pakete (unter Linux und Windows) zwar über eine HTML-Export-Option, die Ergebnisse sind aber oft unbefriedigend.

Microsoft Word

Für die Konvertierung von Word-Dokumenten gibt es verschiedene Möglichkeiten. Zum einen bietet Word (2000) unter dem Menüpunkt Datei/Als Webseite speichern eine eigene Konvertierungsfunktion. Die damit erstellten HTML-Dateien lassen sich im Web-Browser gut betrachten, sind aber für die Weiterbearbeitung nicht sonderlich gut geeignet, da diverse Styles definiert und laufend im Fließtext verwendet werden; so werden etwa die einzelnen Elemente einer Auflistung nicht einfach durch

<li>Text</li>

sondern durch eine Zeile der Form

<li class=MsoNormal style='mso-list:l0 level1 lfo1;tab-stops:list 36.0pt'>Text</li>

präsentiert. Um schnell eine Word-Datei ins Netz zu stellen, ist dies eine praktikable Möglichkeit; sie erfordert aber eine Windows- und Word-Installation.

Wer die HTML-Dateien noch weiter bearbeiten möchte oder keinen Zugriff auf MS Word hat, der wird sich für Alternativen interessieren. Eine davon ist das Programm word2x. Die aktuelle Version 0.005 finden Sie im Web unter http://word2x.alcom.co.uk/. Im Test ließ sich ein Word-8-Dokument nicht konvertieren (die Ausgabe war leer). Speziell für das aktuelle Word-8-Format gibt es das Tool wv (früher mswordview genannt); dessen Homepage ist http://www.wvWare.com/. Sind die wv-Tools aktiviert, lässt sich über den Befehl

wvHtml test.doc test.html

eine Datei konvertieren. Die Ergebnisse der Konvertierung sind allerdings noch enttäuschender als beim Abspeichern unter Word: Das oben besprochene, einfache Auflistungselement nimmt hier die folgende Form an:

<li><p><div align="left" style="  padding: 0.00mm 0.00mm 0.00mm 0.00mm; "> <p style="text-indent: 0.00mm; text-align: left; line-height: 4.166667mm; color: Black; background-color: White; ">
Text
</p></div></li>

Dazu kommt noch, dass Überschriften nicht HTML-konform als <h1>, <h2> etc. ausgezeichnet sind. Die wv-Tools bieten neben Word noch LaTeX, PostScript, PDF und weitere Formate für die Ausgabe an, aber auch das von wvLaTeX generierte LaTeX-Format lässt sich mit latex2html (siehe unten) nicht in brauchbares HTML umwandeln.

StarOffice

Wie Word bietet auch das Textmodul von StarOffice einen HTML-Export an. Dieser erzeugt durchaus brauchbares HTML, und so kann über StarOffice natürlich auch eine Word-Datei exportiert werden. Zum Exportieren wählen Sie einfach Datei/Speichern unter und dann das Dateiformat HTML (StarOffice Writer).

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
  • out of the box
    Vor einiger Zeit stellten wir in dieser Rubrik antiword – einen Filter für Word-Dokumente – vor. Ein ähnlich brauchbares Stück Software für Excel-Tabellen fehlte bislang jedoch. Diese Lücke wird nun von xlhtml geschlossen.
  • Dokumenten-Konvertierung auf der Konsole
  • E-Mails mit Hypermail archivieren
    Was in der Inbox den Spam-Zähler um ein paar Zehntelpunkte erhöht, erweist sich als außerordentlich praktisch, um elektronische Post zu archivieren: das HTML-Format. Mit Hypermail fassen Sie Nachrichten in übersichtliche Archive zusammen und schaffen Platz in Ihren Mail-Ordnern.
  • Migration Microsoft Office 2000 zu StarOffice 5.2 - Teil 2
    Beim letzten Mal zeigten wir Ihnen, welche Unterschiede zwischen Microsoft Office und StarOffice in der Bedienung existieren. In diesem zweiten Teil beschäftigen wir uns mit dem Import bereits vorliegender Dokumente. Da dies den schwierigsten Teil des gesamten Umstiegs darstellt, widmen wir den Workshop-Teil vollständig diesem Thema.
Kommentare

Infos zur Publikation

LU 01/2015: E-Books im Griff

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...
Steuern mit Linux
Siegfried Markner, 01.12.2014 11:56, 2 Antworten
Welches Linux eignet sich am besten für Steuerungen.
Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 5 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...