Konvertierungs-Karussell

Dokumenten-Konvertierung auf der Konsole

01.06.2002

Wie verwandeln Sie eine HTML-Datei in ein PDF-Dokument oder bringen sie ins Textformat? Mit den Konvertierungs-Tools der Kommandozeile, die wir in diesem Artikel unter die Lupe nehmen, ist die Arbeit schnell erledigt.

Um eine HTML-Datei in eine Textdatei zu verwandeln, bietet Ihnen die Kommanmdozeile mit den Browsern w3m und lynx gleich zwei Möglichkeiten zur Konvertierung an:

lynx -dump datei.html > datei.txt

oder:

w3m -dump datei.html > datei.txt

Die Browser liefern Ihnen zum Teil eine unterschiedliche Textausrichtung in der Zieldatei, darum ist es eine Geschmacksfrage, ob Sie dem Oldie lynx oder dem schnittigen w3m den Vorzug geben. Beiden Browsern haben wir übrigens in Heft 02/2001, S. 92 einen eigenen Artikel gewidmet.

Wenn auf Ihrem Rechner keinen Text-Browser installiert ist, können Sie auf das Tool html2text zurückgreifen, das beinahe jeder Distribution beiliegt:

html2text -o datei.txt datei.html

Die Option -o (für Output) zeigt html2text die Ausgabedatei, in die es das Ergebnis der Konvertierung schreiben soll. Ausnahmsweise steht die Datei bei diesem Programm an erster Stelle.

Abbildung 1: Diese Textdatei wurde mit lynx konvertiert…
Abbildung 2: …und diese mit w3m

Um aus einer HTML-Datei ein Postscript-Dokument zu erstellen, können Sie ebenfalls einen Browser benutzen, wenn Sie, wie beim Netscape Navigator oder Opera, die Webseite optional in eine Datei drucken. Natürlich steht Ihnen auch für diese Aufgabe ein Tool der Kommandozeile zur Verfügung:

html2ps datei.html > datei.ps

Postscript ist eine Beschreibungssprache, die vom Drucker interpretiert wird. In der Unix/Linux-Welt werden zu druckende Datein im Postscript-Format erstellt und an den Drucker geleitet. Diese Konvertierung findet im Hintergrund statt, sobald Sie ein Programm anweisen, eine Datei zu drucken.

Ebenso schnell verwandeln Sie eine Textdatei in das Postscript-Format mit dem Befehl:

a2ps datei.txt -o datei.ps

Das Tool a2ps verfügt über zahlreiche Optionen, die Sie in den Manualseiten mit dem Befehl man a2ps einsehen können. Die Option -o benennt wieder die Ausgabedatei, in die diesmal ein Postscript-Code geschrieben wird.

Auch in die andere Richtung ist der Weg für Sie gangbar. Mit dem Kommando ps2ascii erstellen Sie aus einem Postscript-Dokument eine Datei im ASCII-Format:

ps2ascii datei.ps datei.txt

Das Kommando ps2pdf führt Sie zu einem schnellen Erfolg, wenn Sie ein Postscript-Dokument in eine PDF-Datei exportieren möchten. Das PDF-Format wurde von der Firma Adobe entwickelt, die auch den gleichnamigen Acrobat Reader zum Anzeigen dieser Dateien bereitstellt. Als Linux-Anwender stehen Ihnen ausserdem die Programme Ghostview und Xpdf als PDF-Betrachter zur Seite. Mehr Details über den Themenbereich Postscript und PDF finden Sie in Heft 02/2001, S. 63.

An dieser Stelle können wir nun die HTML-Datei, die wir weiter oben in ein Postscript-Dokument konvertiert haben, in das PDF-Format übertragen:

ps2pdf datei.ps datei.pdf

Im umgekehrten Falle erstellen Sie mit dem Kommando pdf2ps aus einer PDF-Datei eine Datei im Postscript-Format:

pdf2ps datei.pdf datei.ps

Die Befehle ps2pdf und pdf2ps haben das schon erwähnte Programm Ghostscript als Grundlage, über das Sie mit dem Kommando man gs weitere Einzelheiten erfahren können.

Abbildung 3: Die HTML-Datei wurde zu Postscript und nun heißt PDF.

Neben der Konvertierung von HTML zu Postscript, gibt Ihnen die Kommandozeile mit pdftohtml ein Tool an die Hand, um, wie der Name schon sagt, PDF in HTML umzuwandeln:

pdftohtml datei.pdf

Das Programm pdftohtml erstellt ein Verzeichnis mit dem Namen der PDF-Datei und hinterlegt dort die konvertierten Dokumente. Grafiken, die in die PDF-Datei eingebunden waren, werden in das JPG-Format übertragen und mit den entsprechenden HTML-Tags an die richtige Stelle gesetzt.

Eine Textkonvertierung der etwas anderen Art bietet Ihnen das kleine Tool text2gif. GIF ist ein Grafikdatei-Format, entwickelt von der Firma CompuServe:

text2gif -t "Dies ist ein gif" > test.gif

Die Option -t weist auf den nachfolgenden Text hin, der dann in der Grafik erscheint. Leider gibt es für text2gif keine Manualseiten, den Pfad zur Dokumentation sollte Ihnen jedoch das Kommando locate text2gifliefern.

Von Windows, LaTeX und Groff

Jeder kennt die freundlichen Mitmenschen, die Word-Dateien versenden, im Glauben, dass Microsoft-Format sei überall gut und gerne gesehen. Wenn Sie eine Datei mit der Endung .doc in Ihrer Post finden, dann bleibt Ihnen oft nur der Schritt zu Staroffice, um das Dokument zu öffnen und zu bearbeiten. Sollte Ihnen das Starten des ganzen Offices zu aufwendig erscheinen, können Sie die Microsoft-Datei mit word2x in eine Textdatei konvertieren:

word2x datei.doc

Auf diese Weise gelingt es Ihnen auch, die Word-Datei in das TEX-Format zu überführen, wenn Sie die Datei mit dem Text-Satzsystem LaTeX bearbeiten möchten:

word2x -flatex datei.doc

Sie müssen kein Meister des LaTeX sein, um die so erstellte TEX-Datei in eine HTML-Datei zu wechseln:

latex2html datei.tex

In dem Hauptverzeichnis, in dem Sie sich gerade befinden, erstellt LaTeX ein Unterverzeichnis, wo Sie das frisch erschaffene HTML-Dokument finden können.

Selbstverständlich läßt sich unsere datei.tex noch zu weiteren Formatveränderungen nutzen. Zum Abschluß unser Drehscheibe der Konvertierungen überträgt das Kommando pdflatex die TEX-Datei, die zuvor ein Word-Dokument war, in das PDF-Format:

pdflatex datei.tex

Und wenn Sie der freundliche Mitmensch vor dem Windowsrechner fragt, wie Sie all diese Konvertierungen hinbekommen, dann senden Sie ihm doch einfach die entsprechende Manualseite als HTML-Datei:

man -Thtml groff > groff.html

Das Satzsystem groff ist für die Formatierung der Manualseiten verantwortlich. In unserem Beispiel wird man groff durch die Option -T zu einer Ausgabe im HTML-Format überrredet. Der Pfeil > leitet diese Ausgabe weiter in die Datei groff.html, die Sie bequem via eMail an den Fragenden verschicken können.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Zu Befehl: gs & psutils
    PostScript ist eine plattformunabhängige Programmiersprache, in der Texte und Grafiken an Drucker übermittelt werden. Neben den bekannten Viewern für diese Formate gibt es auch auf der Kommandozeile viele nützliche und schnelle Tools, die .ps-Dateien bearbeiten und anzeigen. Wir zeigen, wie Sie mit Ghostscript und den PSUtils "geistreich" arbeiten.
  • Nicht nur zum Drucken
    PDF und PostScript sind in der Linux-Welt zwei wichtige Dateiformate. In diesem Artikel erfahren Sie, wie Sie diese Formate erzeugen, betrachten, konvertieren und ausdrucken.
  • Bild und Druck
    Durch seine reiche Ausstattung an Werkzeugen eignet sich Linux wie kaum ein anderes Betriebssystem zum Umgang mit Postscript- und PDF-Dokumenten. Wir stellen die besten Tools zur Anzeige und Konvertierung vor.
  • Dateien nach HTML konvertieren
    Das wichtigste Format des Web ist HTML, doch viele Daten liegen in anderen Dateiformaten vor, als Office-Dokumente, Tabellen, Acrobat- oder gar ASCII-Dateien. Dieser Artikel behandelt Konvertierungsmethoden.
  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
Kommentare

Infos zur Publikation

LU 06/2015: Shell-Tools

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 0 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Zu wenig Speicherplatz auf /boot unter MATE
Patrick Obenauer, 25.05.2015 14:28, 1 Antworten
Hallo zusammen, ich habe Ubuntu 14.10 mit MATE 1.8.2 (3.16-37) mit Standardeinstellungen aufgese...
Konsole / Terminal in Linux Mint 17.1 deutsch
Dirk Resag, 09.05.2015 23:39, 12 Antworten
Hallo an die Community, ich habe vor kurzem ein älteres Notebook, Amilo A1650G, 1GB Arbeitsspe...
Admin Probleme mit Q4os
Thomas Weiss, 30.03.2015 20:27, 6 Antworten
Hallo Leute, ich habe zwei Fragen zu Q4os. Die Installation auf meinem Dell Latitude D600 verl...
eeepc 1005HA externer sound Ausgang geht nicht
Dieter Drewanz, 18.03.2015 15:00, 1 Antworten
Hallo LC, nach dem Update () funktioniert unter KDE der externe Soundausgang an der Klinkenbuc...
AceCad DigiMemo A 402
Dr. Ulrich Andree, 15.03.2015 17:38, 2 Antworten
Moin zusammen, ich habe mir den elektronischen Notizblock "AceCad DigiMemo A 402" zugelegt und m...