*2html

Dateien nach HTML konvertieren

01.11.2001
Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.

Interessant ist bei der Konvertierung verschiedenster Dokumenttypen nach HTML nicht nur das "wie" sondern auch das "wie gut": So verfügen die meisten Office-Pakete (unter Linux und Windows) zwar über eine HTML-Export-Option, die Ergebnisse sind aber oft unbefriedigend.

Microsoft Word

Für die Konvertierung von Word-Dokumenten gibt es verschiedene Möglichkeiten. Zum einen bietet Word (2000) unter dem Menüpunkt Datei/Als Webseite speichern eine eigene Konvertierungsfunktion. Die damit erstellten HTML-Dateien lassen sich im Web-Browser gut betrachten, sind aber für die Weiterbearbeitung nicht sonderlich gut geeignet, da diverse Styles definiert und laufend im Fließtext verwendet werden; so werden etwa die einzelnen Elemente einer Auflistung nicht einfach durch

<li>Text</li>

sondern durch eine Zeile der Form

<li class=MsoNormal style='mso-list:l0 level1 lfo1;tab-stops:list 36.0pt'>Text</li>

präsentiert. Um schnell eine Word-Datei ins Netz zu stellen, ist dies eine praktikable Möglichkeit; sie erfordert aber eine Windows- und Word-Installation.

Wer die HTML-Dateien noch weiter bearbeiten möchte oder keinen Zugriff auf MS Word hat, der wird sich für Alternativen interessieren. Eine davon ist das Programm word2x. Die aktuelle Version 0.005 finden Sie im Web unter http://word2x.alcom.co.uk/. Im Test ließ sich ein Word-8-Dokument nicht konvertieren (die Ausgabe war leer). Speziell für das aktuelle Word-8-Format gibt es das Tool wv (früher mswordview genannt); dessen Homepage ist http://www.wvWare.com/. Sind die wv-Tools aktiviert, lässt sich über den Befehl

wvHtml test.doc test.html

eine Datei konvertieren. Die Ergebnisse der Konvertierung sind allerdings noch enttäuschender als beim Abspeichern unter Word: Das oben besprochene, einfache Auflistungselement nimmt hier die folgende Form an:

<li><p><div align="left" style="  padding: 0.00mm 0.00mm 0.00mm 0.00mm; "> <p style="text-indent: 0.00mm; text-align: left; line-height: 4.166667mm; color: Black; background-color: White; ">
Text
</p></div></li>

Dazu kommt noch, dass Überschriften nicht HTML-konform als <h1>, <h2> etc. ausgezeichnet sind. Die wv-Tools bieten neben Word noch LaTeX, PostScript, PDF und weitere Formate für die Ausgabe an, aber auch das von wvLaTeX generierte LaTeX-Format lässt sich mit latex2html (siehe unten) nicht in brauchbares HTML umwandeln.

StarOffice

Wie Word bietet auch das Textmodul von StarOffice einen HTML-Export an. Dieser erzeugt durchaus brauchbares HTML, und so kann über StarOffice natürlich auch eine Word-Datei exportiert werden. Zum Exportieren wählen Sie einfach Datei/Speichern unter und dann das Dateiformat HTML (StarOffice Writer).

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
  • out of the box
    Vor einiger Zeit stellten wir in dieser Rubrik antiword – einen Filter für Word-Dokumente – vor. Ein ähnlich brauchbares Stück Software für Excel-Tabellen fehlte bislang jedoch. Diese Lücke wird nun von xlhtml geschlossen.
  • Dokumenten-Konvertierung auf der Konsole
  • E-Mails mit Hypermail archivieren
    Was in der Inbox den Spam-Zähler um ein paar Zehntelpunkte erhöht, erweist sich als außerordentlich praktisch, um elektronische Post zu archivieren: das HTML-Format. Mit Hypermail fassen Sie Nachrichten in übersichtliche Archive zusammen und schaffen Platz in Ihren Mail-Ordnern.
  • Migration Microsoft Office 2000 zu StarOffice 5.2 - Teil 2
    Beim letzten Mal zeigten wir Ihnen, welche Unterschiede zwischen Microsoft Office und StarOffice in der Bedienung existieren. In diesem zweiten Teil beschäftigen wir uns mit dem Import bereits vorliegender Dokumente. Da dies den schwierigsten Teil des gesamten Umstiegs darstellt, widmen wir den Workshop-Teil vollständig diesem Thema.
Kommentare

Infos zur Publikation

LU 12/2014: ANONYM & SICHER

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...