Konvertierungs-Karussell

Dokumenten-Konvertierung auf der Konsole

01.06.2002

Wie verwandeln Sie eine HTML-Datei in ein PDF-Dokument oder bringen sie ins Textformat? Mit den Konvertierungs-Tools der Kommandozeile, die wir in diesem Artikel unter die Lupe nehmen, ist die Arbeit schnell erledigt.

Um eine HTML-Datei in eine Textdatei zu verwandeln, bietet Ihnen die Kommanmdozeile mit den Browsern w3m und lynx gleich zwei Möglichkeiten zur Konvertierung an:

lynx -dump datei.html > datei.txt

oder:

w3m -dump datei.html > datei.txt

Die Browser liefern Ihnen zum Teil eine unterschiedliche Textausrichtung in der Zieldatei, darum ist es eine Geschmacksfrage, ob Sie dem Oldie lynx oder dem schnittigen w3m den Vorzug geben. Beiden Browsern haben wir übrigens in Heft 02/2001, S. 92 einen eigenen Artikel gewidmet.

Wenn auf Ihrem Rechner keinen Text-Browser installiert ist, können Sie auf das Tool html2text zurückgreifen, das beinahe jeder Distribution beiliegt:

html2text -o datei.txt datei.html

Die Option -o (für Output) zeigt html2text die Ausgabedatei, in die es das Ergebnis der Konvertierung schreiben soll. Ausnahmsweise steht die Datei bei diesem Programm an erster Stelle.

Abbildung 1: Diese Textdatei wurde mit lynx konvertiert…
Abbildung 2: …und diese mit w3m

Um aus einer HTML-Datei ein Postscript-Dokument zu erstellen, können Sie ebenfalls einen Browser benutzen, wenn Sie, wie beim Netscape Navigator oder Opera, die Webseite optional in eine Datei drucken. Natürlich steht Ihnen auch für diese Aufgabe ein Tool der Kommandozeile zur Verfügung:

html2ps datei.html > datei.ps

Postscript ist eine Beschreibungssprache, die vom Drucker interpretiert wird. In der Unix/Linux-Welt werden zu druckende Datein im Postscript-Format erstellt und an den Drucker geleitet. Diese Konvertierung findet im Hintergrund statt, sobald Sie ein Programm anweisen, eine Datei zu drucken.

Ebenso schnell verwandeln Sie eine Textdatei in das Postscript-Format mit dem Befehl:

a2ps datei.txt -o datei.ps

Das Tool a2ps verfügt über zahlreiche Optionen, die Sie in den Manualseiten mit dem Befehl man a2ps einsehen können. Die Option -o benennt wieder die Ausgabedatei, in die diesmal ein Postscript-Code geschrieben wird.

Auch in die andere Richtung ist der Weg für Sie gangbar. Mit dem Kommando ps2ascii erstellen Sie aus einem Postscript-Dokument eine Datei im ASCII-Format:

ps2ascii datei.ps datei.txt

Das Kommando ps2pdf führt Sie zu einem schnellen Erfolg, wenn Sie ein Postscript-Dokument in eine PDF-Datei exportieren möchten. Das PDF-Format wurde von der Firma Adobe entwickelt, die auch den gleichnamigen Acrobat Reader zum Anzeigen dieser Dateien bereitstellt. Als Linux-Anwender stehen Ihnen ausserdem die Programme Ghostview und Xpdf als PDF-Betrachter zur Seite. Mehr Details über den Themenbereich Postscript und PDF finden Sie in Heft 02/2001, S. 63.

An dieser Stelle können wir nun die HTML-Datei, die wir weiter oben in ein Postscript-Dokument konvertiert haben, in das PDF-Format übertragen:

ps2pdf datei.ps datei.pdf

Im umgekehrten Falle erstellen Sie mit dem Kommando pdf2ps aus einer PDF-Datei eine Datei im Postscript-Format:

pdf2ps datei.pdf datei.ps

Die Befehle ps2pdf und pdf2ps haben das schon erwähnte Programm Ghostscript als Grundlage, über das Sie mit dem Kommando man gs weitere Einzelheiten erfahren können.

Abbildung 3: Die HTML-Datei wurde zu Postscript und nun heißt PDF.

Neben der Konvertierung von HTML zu Postscript, gibt Ihnen die Kommandozeile mit pdftohtml ein Tool an die Hand, um, wie der Name schon sagt, PDF in HTML umzuwandeln:

pdftohtml datei.pdf

Das Programm pdftohtml erstellt ein Verzeichnis mit dem Namen der PDF-Datei und hinterlegt dort die konvertierten Dokumente. Grafiken, die in die PDF-Datei eingebunden waren, werden in das JPG-Format übertragen und mit den entsprechenden HTML-Tags an die richtige Stelle gesetzt.

Eine Textkonvertierung der etwas anderen Art bietet Ihnen das kleine Tool text2gif. GIF ist ein Grafikdatei-Format, entwickelt von der Firma CompuServe:

text2gif -t "Dies ist ein gif" > test.gif

Die Option -t weist auf den nachfolgenden Text hin, der dann in der Grafik erscheint. Leider gibt es für text2gif keine Manualseiten, den Pfad zur Dokumentation sollte Ihnen jedoch das Kommando locate text2gifliefern.

Von Windows, LaTeX und Groff

Jeder kennt die freundlichen Mitmenschen, die Word-Dateien versenden, im Glauben, dass Microsoft-Format sei überall gut und gerne gesehen. Wenn Sie eine Datei mit der Endung .doc in Ihrer Post finden, dann bleibt Ihnen oft nur der Schritt zu Staroffice, um das Dokument zu öffnen und zu bearbeiten. Sollte Ihnen das Starten des ganzen Offices zu aufwendig erscheinen, können Sie die Microsoft-Datei mit word2x in eine Textdatei konvertieren:

word2x datei.doc

Auf diese Weise gelingt es Ihnen auch, die Word-Datei in das TEX-Format zu überführen, wenn Sie die Datei mit dem Text-Satzsystem LaTeX bearbeiten möchten:

word2x -flatex datei.doc

Sie müssen kein Meister des LaTeX sein, um die so erstellte TEX-Datei in eine HTML-Datei zu wechseln:

latex2html datei.tex

In dem Hauptverzeichnis, in dem Sie sich gerade befinden, erstellt LaTeX ein Unterverzeichnis, wo Sie das frisch erschaffene HTML-Dokument finden können.

Selbstverständlich läßt sich unsere datei.tex noch zu weiteren Formatveränderungen nutzen. Zum Abschluß unser Drehscheibe der Konvertierungen überträgt das Kommando pdflatex die TEX-Datei, die zuvor ein Word-Dokument war, in das PDF-Format:

pdflatex datei.tex

Und wenn Sie der freundliche Mitmensch vor dem Windowsrechner fragt, wie Sie all diese Konvertierungen hinbekommen, dann senden Sie ihm doch einfach die entsprechende Manualseite als HTML-Datei:

man -Thtml groff > groff.html

Das Satzsystem groff ist für die Formatierung der Manualseiten verantwortlich. In unserem Beispiel wird man groff durch die Option -T zu einer Ausgabe im HTML-Format überrredet. Der Pfeil > leitet diese Ausgabe weiter in die Datei groff.html, die Sie bequem via eMail an den Fragenden verschicken können.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Zu Befehl: gs & psutils
    PostScript ist eine plattformunabhängige Programmiersprache, in der Texte und Grafiken an Drucker übermittelt werden. Neben den bekannten Viewern für diese Formate gibt es auch auf der Kommandozeile viele nützliche und schnelle Tools, die .ps-Dateien bearbeiten und anzeigen. Wir zeigen, wie Sie mit Ghostscript und den PSUtils "geistreich" arbeiten.
  • Nicht nur zum Drucken
    PDF und PostScript sind in der Linux-Welt zwei wichtige Dateiformate. In diesem Artikel erfahren Sie, wie Sie diese Formate erzeugen, betrachten, konvertieren und ausdrucken.
  • Bild und Druck
    Durch seine reiche Ausstattung an Werkzeugen eignet sich Linux wie kaum ein anderes Betriebssystem zum Umgang mit Postscript- und PDF-Dokumenten. Wir stellen die besten Tools zur Anzeige und Konvertierung vor.
  • Dateien nach HTML konvertieren
    Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.
  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
Kommentare

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

WLAN-Signalqualität vom Treiber abhängig
GoaSkin , 29.10.2014 14:16, 0 Antworten
Hallo, für einen WLAN-Stick mit Ralink 2870 Chipsatz gibt es einen Treiber von Ralink sowie (m...
Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 6 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...