Home / LinuxUser / 2002 / 06 / Dokumenten-Konvertierung auf der Konsole

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Konvertierungs-Karussell

Dokumenten-Konvertierung auf der Konsole

01.06.2002

Wie verwandeln Sie eine HTML-Datei in ein PDF-Dokument oder bringen sie ins Textformat? Mit den Konvertierungs-Tools der Kommandozeile, die wir in diesem Artikel unter die Lupe nehmen, ist die Arbeit schnell erledigt.

Um eine HTML-Datei in eine Textdatei zu verwandeln, bietet Ihnen die Kommanmdozeile mit den Browsern w3m und lynx gleich zwei Möglichkeiten zur Konvertierung an:

lynx -dump datei.html > datei.txt

oder:

w3m -dump datei.html > datei.txt

Die Browser liefern Ihnen zum Teil eine unterschiedliche Textausrichtung in der Zieldatei, darum ist es eine Geschmacksfrage, ob Sie dem Oldie lynx oder dem schnittigen w3m den Vorzug geben. Beiden Browsern haben wir übrigens in Heft 02/2001, S. 92 einen eigenen Artikel gewidmet.

Wenn auf Ihrem Rechner keinen Text-Browser installiert ist, können Sie auf das Tool html2text zurückgreifen, das beinahe jeder Distribution beiliegt:

html2text -o datei.txt datei.html

Die Option -o (für Output) zeigt html2text die Ausgabedatei, in die es das Ergebnis der Konvertierung schreiben soll. Ausnahmsweise steht die Datei bei diesem Programm an erster Stelle.

Abbildung 1: Diese Textdatei wurde mit lynx konvertiert…

Abbildung 2: …und diese mit w3m

Um aus einer HTML-Datei ein Postscript-Dokument zu erstellen, können Sie ebenfalls einen Browser benutzen, wenn Sie, wie beim Netscape Navigator oder Opera, die Webseite optional in eine Datei drucken. Natürlich steht Ihnen auch für diese Aufgabe ein Tool der Kommandozeile zur Verfügung:

html2ps datei.html > datei.ps

Postscript ist eine Beschreibungssprache, die vom Drucker interpretiert wird. In der Unix/Linux-Welt werden zu druckende Datein im Postscript-Format erstellt und an den Drucker geleitet. Diese Konvertierung findet im Hintergrund statt, sobald Sie ein Programm anweisen, eine Datei zu drucken.

Ebenso schnell verwandeln Sie eine Textdatei in das Postscript-Format mit dem Befehl:

a2ps datei.txt -o datei.ps

Das Tool a2ps verfügt über zahlreiche Optionen, die Sie in den Manualseiten mit dem Befehl man a2ps einsehen können. Die Option -o benennt wieder die Ausgabedatei, in die diesmal ein Postscript-Code geschrieben wird.

Auch in die andere Richtung ist der Weg für Sie gangbar. Mit dem Kommando ps2ascii erstellen Sie aus einem Postscript-Dokument eine Datei im ASCII-Format:

ps2ascii datei.ps datei.txt

Das Kommando ps2pdf führt Sie zu einem schnellen Erfolg, wenn Sie ein Postscript-Dokument in eine PDF-Datei exportieren möchten. Das PDF-Format wurde von der Firma Adobe entwickelt, die auch den gleichnamigen Acrobat Reader zum Anzeigen dieser Dateien bereitstellt. Als Linux-Anwender stehen Ihnen ausserdem die Programme Ghostview und Xpdf als PDF-Betrachter zur Seite. Mehr Details über den Themenbereich Postscript und PDF finden Sie in Heft 02/2001, S. 63.

An dieser Stelle können wir nun die HTML-Datei, die wir weiter oben in ein Postscript-Dokument konvertiert haben, in das PDF-Format übertragen:

ps2pdf datei.ps datei.pdf

Im umgekehrten Falle erstellen Sie mit dem Kommando pdf2ps aus einer PDF-Datei eine Datei im Postscript-Format:

pdf2ps datei.pdf datei.ps

Die Befehle ps2pdf und pdf2ps haben das schon erwähnte Programm Ghostscript als Grundlage, über das Sie mit dem Kommando man gs weitere Einzelheiten erfahren können.

Abbildung 3: Die HTML-Datei wurde zu Postscript und nun heißt PDF.

Neben der Konvertierung von HTML zu Postscript, gibt Ihnen die Kommandozeile mit pdftohtml ein Tool an die Hand, um, wie der Name schon sagt, PDF in HTML umzuwandeln:

pdftohtml datei.pdf

Das Programm pdftohtml erstellt ein Verzeichnis mit dem Namen der PDF-Datei und hinterlegt dort die konvertierten Dokumente. Grafiken, die in die PDF-Datei eingebunden waren, werden in das JPG-Format übertragen und mit den entsprechenden HTML-Tags an die richtige Stelle gesetzt.

Eine Textkonvertierung der etwas anderen Art bietet Ihnen das kleine Tool text2gif. GIF ist ein Grafikdatei-Format, entwickelt von der Firma CompuServe:

text2gif -t "Dies ist ein gif" > test.gif

Die Option -t weist auf den nachfolgenden Text hin, der dann in der Grafik erscheint. Leider gibt es für text2gif keine Manualseiten, den Pfad zur Dokumentation sollte Ihnen jedoch das Kommando locate text2gifliefern.

Von Windows, LaTeX und Groff

Jeder kennt die freundlichen Mitmenschen, die Word-Dateien versenden, im Glauben, dass Microsoft-Format sei überall gut und gerne gesehen. Wenn Sie eine Datei mit der Endung .doc in Ihrer Post finden, dann bleibt Ihnen oft nur der Schritt zu Staroffice, um das Dokument zu öffnen und zu bearbeiten. Sollte Ihnen das Starten des ganzen Offices zu aufwendig erscheinen, können Sie die Microsoft-Datei mit word2x in eine Textdatei konvertieren:

word2x datei.doc

Auf diese Weise gelingt es Ihnen auch, die Word-Datei in das TEX-Format zu überführen, wenn Sie die Datei mit dem Text-Satzsystem LaTeX bearbeiten möchten:

word2x -flatex datei.doc

Sie müssen kein Meister des LaTeX sein, um die so erstellte TEX-Datei in eine HTML-Datei zu wechseln:

latex2html datei.tex

In dem Hauptverzeichnis, in dem Sie sich gerade befinden, erstellt LaTeX ein Unterverzeichnis, wo Sie das frisch erschaffene HTML-Dokument finden können.

Selbstverständlich läßt sich unsere datei.tex noch zu weiteren Formatveränderungen nutzen. Zum Abschluß unser Drehscheibe der Konvertierungen überträgt das Kommando pdflatex die TEX-Datei, die zuvor ein Word-Dokument war, in das PDF-Format:

pdflatex datei.tex

Und wenn Sie der freundliche Mitmensch vor dem Windowsrechner fragt, wie Sie all diese Konvertierungen hinbekommen, dann senden Sie ihm doch einfach die entsprechende Manualseite als HTML-Datei:

man -Thtml groff > groff.html

Das Satzsystem groff ist für die Formatierung der Manualseiten verantwortlich. In unserem Beispiel wird man groff durch die Option -T zu einer Ausgabe im HTML-Format überrredet. Der Pfeil > leitet diese Ausgabe weiter in die Datei groff.html, die Sie bequem via eMail an den Fragenden verschicken können.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

674 Hits
Wertung: 0 Punkte (0 Stimmen)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 06/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...