Wie verwandeln Sie eine HTML-Datei in ein PDF-Dokument oder bringen sie ins Textformat? Mit den Konvertierungs-Tools der Kommandozeile, die wir in diesem Artikel unter die Lupe nehmen, ist die Arbeit schnell erledigt.
Um eine HTML-Datei in eine Textdatei zu verwandeln, bietet Ihnen die Kommanmdozeile mit den Browsern w3m und lynx gleich zwei Möglichkeiten zur Konvertierung an:
lynx -dump datei.html > datei.txt
oder:
w3m -dump datei.html > datei.txt
Die Browser liefern Ihnen zum Teil eine unterschiedliche Textausrichtung in der Zieldatei, darum ist es eine Geschmacksfrage, ob Sie dem Oldie lynx oder dem schnittigen w3m den Vorzug geben. Beiden Browsern haben wir übrigens in Heft 02/2001, S. 92 einen eigenen Artikel gewidmet.
Wenn auf Ihrem Rechner keinen Text-Browser installiert ist, können Sie auf das Tool html2text zurückgreifen, das beinahe jeder Distribution beiliegt:
html2text -o datei.txt datei.html
Die Option -o (für Output) zeigt html2text die Ausgabedatei, in die es das Ergebnis der Konvertierung schreiben soll. Ausnahmsweise steht die Datei bei diesem Programm an erster Stelle.
Um aus einer HTML-Datei ein Postscript-Dokument zu erstellen, können Sie ebenfalls einen Browser benutzen, wenn Sie, wie beim Netscape Navigator oder Opera, die Webseite optional in eine Datei drucken. Natürlich steht Ihnen auch für diese Aufgabe ein Tool der Kommandozeile zur Verfügung:
html2ps datei.html > datei.ps
Postscript ist eine Beschreibungssprache, die vom Drucker interpretiert wird. In der Unix/Linux-Welt werden zu druckende Datein im Postscript-Format erstellt und an den Drucker geleitet. Diese Konvertierung findet im Hintergrund statt, sobald Sie ein Programm anweisen, eine Datei zu drucken.
Ebenso schnell verwandeln Sie eine Textdatei in das Postscript-Format mit dem Befehl:
a2ps datei.txt -o datei.ps
Das Tool a2ps verfügt über zahlreiche Optionen, die Sie in den Manualseiten mit dem Befehl man a2ps einsehen können. Die Option -o benennt wieder die Ausgabedatei, in die diesmal ein Postscript-Code geschrieben wird.
Auch in die andere Richtung ist der Weg für Sie gangbar. Mit dem Kommando ps2ascii erstellen Sie aus einem Postscript-Dokument eine Datei im ASCII-Format:
ps2ascii datei.ps datei.txt
Das Kommando ps2pdf führt Sie zu einem schnellen Erfolg, wenn Sie ein Postscript-Dokument in eine PDF-Datei exportieren möchten. Das PDF-Format wurde von der Firma Adobe entwickelt, die auch den gleichnamigen Acrobat Reader zum Anzeigen dieser Dateien bereitstellt. Als Linux-Anwender stehen Ihnen ausserdem die Programme Ghostview und Xpdf als PDF-Betrachter zur Seite. Mehr Details über den Themenbereich Postscript und PDF finden Sie in Heft 02/2001, S. 63.
An dieser Stelle können wir nun die HTML-Datei, die wir weiter oben in ein Postscript-Dokument konvertiert haben, in das PDF-Format übertragen:
ps2pdf datei.ps datei.pdf
Im umgekehrten Falle erstellen Sie mit dem Kommando pdf2ps aus einer PDF-Datei eine Datei im Postscript-Format:
pdf2ps datei.pdf datei.ps
Die Befehle ps2pdf und pdf2ps haben das schon erwähnte Programm Ghostscript als Grundlage, über das Sie mit dem Kommando man gs weitere Einzelheiten erfahren können.
Neben der Konvertierung von HTML zu Postscript, gibt Ihnen die Kommandozeile mit pdftohtml ein Tool an die Hand, um, wie der Name schon sagt, PDF in HTML umzuwandeln:
pdftohtml datei.pdf
Das Programm pdftohtml erstellt ein Verzeichnis mit dem Namen der PDF-Datei und hinterlegt dort die konvertierten Dokumente. Grafiken, die in die PDF-Datei eingebunden waren, werden in das JPG-Format übertragen und mit den entsprechenden HTML-Tags an die richtige Stelle gesetzt.
Eine Textkonvertierung der etwas anderen Art bietet Ihnen das kleine Tool text2gif. GIF ist ein Grafikdatei-Format, entwickelt von der Firma CompuServe:
text2gif -t "Dies ist ein gif" > test.gif
Die Option -t weist auf den nachfolgenden Text hin, der dann in der Grafik erscheint. Leider gibt es für text2gif keine Manualseiten, den Pfad zur Dokumentation sollte Ihnen jedoch das Kommando locate text2gifliefern.
Von Windows, LaTeX und Groff
Jeder kennt die freundlichen Mitmenschen, die Word-Dateien versenden, im Glauben, dass Microsoft-Format sei überall gut und gerne gesehen. Wenn Sie eine Datei mit der Endung .doc in Ihrer Post finden, dann bleibt Ihnen oft nur der Schritt zu Staroffice, um das Dokument zu öffnen und zu bearbeiten. Sollte Ihnen das Starten des ganzen Offices zu aufwendig erscheinen, können Sie die Microsoft-Datei mit word2x in eine Textdatei konvertieren:
word2x datei.doc
Auf diese Weise gelingt es Ihnen auch, die Word-Datei in das TEX-Format zu überführen, wenn Sie die Datei mit dem Text-Satzsystem LaTeX bearbeiten möchten:
word2x -flatex datei.doc
Sie müssen kein Meister des LaTeX sein, um die so erstellte TEX-Datei in eine HTML-Datei zu wechseln:
latex2html datei.tex
In dem Hauptverzeichnis, in dem Sie sich gerade befinden, erstellt LaTeX ein Unterverzeichnis, wo Sie das frisch erschaffene HTML-Dokument finden können.
Selbstverständlich läßt sich unsere datei.tex noch zu weiteren Formatveränderungen nutzen. Zum Abschluß unser Drehscheibe der Konvertierungen überträgt das Kommando pdflatex die TEX-Datei, die zuvor ein Word-Dokument war, in das PDF-Format:
pdflatex datei.tex
Und wenn Sie der freundliche Mitmensch vor dem Windowsrechner fragt, wie Sie all diese Konvertierungen hinbekommen, dann senden Sie ihm doch einfach die entsprechende Manualseite als HTML-Datei:
man -Thtml groff > groff.html
Das Satzsystem groff ist für die Formatierung der Manualseiten verantwortlich. In unserem Beispiel wird man groff durch die Option -T zu einer Ausgabe im HTML-Format überrredet. Der Pfeil > leitet diese Ausgabe weiter in die Datei groff.html, die Sie bequem via eMail an den Fragenden verschicken können.



