out of the box

Aus LinuxUser 10/2001

out of the box

Dagegen!

Werden Sie auch des Öfteren von “lieben Kollegen” mit Word-Anhängen in E-Mails genervt? “out of the box” zeigt Ihnen, wie sie auch ohne Word und andere Speicherfresser “mal eben” ins Dokument hineinschauen.

out of the box

Es gibt tausende Tools und Utilities für Linux. “out of the box” pickt sich die Rosinen raus und stellt pro Monat ein Progrämmchen vor, das wir für schlichtweg unentbehrlich oder aber zu Unrecht wenig beachtet halten.

So richtig kommt man eben doch nicht vor ihr los, der Windows-Welt. Oder doch? Mit antiword von Adri J. van Os lassen sich – selbst in der Textkonsole – Word-Dokumente gut lesbar darstellen.

Überschaubar

Obwohl antiword mit recht vielen Word-Formaten zurechtkommt, ist es ein sehr kompaktes Programm von nur etwa 100 kB Größe. Für die aktuelle Version 0.31 holen Sie sich den gepackten Quelltext von http://www.winfield.demon.nl/index.html oder von der Heft-CD.

Um die Installation von antiword zu vereinfachen, liegt auf der Heft-CD ein Shell-Skript namens ainst.sh bei. Kopieren Sie dieses bitte zusammen mit der Datei antiword-0.31.tar.gz in ein Verzeichnis, und starten Sie es mit sh ainst.sh.

Das Skript erledigt folgende Schritte:

  • Entpacken des Quellarchivs,
  • Kompilieren des Programms und
  • Kopieren von Dateien in Ihr Home-Verzeichnis und in den /usr/local-Ast des Dateisystems. Für das Schreiben in /usr/local werden root-Rechte benötigt – das Skript fragt das root-Passwort an der entsprechenden Stelle ab.

Wort für Wort

Um antiword zu testen, habe ich mich in die Höhle des Löwen gewagt und ein kurzes Word-Dokument tex_ist_besser.doc mit Micro$oft Word 8.0 geschrieben. Darin sind Überschriften in verschiedenen Ebenen, eine Aufzählung und eine Tabelle enthalten. Die Originaldarstellung ist in Abbildung 1 zu sehen.

Abbildung 1: Originaldarstellung in Word 8.0

Abbildung 1: Originaldarstellung in Word 8.0

Um antiword mit diesem Word-Dokument zu füttern, geben Sie in der Shell ein:

antiword tex_ist_besser.doc > tex_ist_besser.txt

Das >-Zeichen veranlasst die Shell dazu, die Ausgabe des Programms in die Datei tex_ist_besser.txt umzuleiten, ansonsten würde sie nur auf der Konsole “durchrauschen”.

In Listing 1 sehen sie die von antiword erzeugte Textausgabe. Auffällig ist, dass das Programm die Überschriften als solche identifiziert und eine entsprechende Nummerierung erzeugt. Ebenfalls erhalten geblieben ist die Blocksatzformatierung des ersten Absatzes. Die Tabellendarstellung könnte noch verbessert werden, hier wäre der textbasierte Web-Browser w3m ein Vorbild.

Listing 1

Textausgabe von antiword

1 Warum TeX besser als Word ist
 Dieses  Dokument  beschreibt  in  wenigen  Stichpunkten  die  Vorteile   von
 TeX/LaTeX   gegenüber   Word   und   WYSIWYG-Textverarbeitungen   allgemein.
 Natürlich werden auch potentielle Nachteile nicht verschwiegen.  Desweiteren
 dient dieses Dokument zur Demonstration von antiword, einem Word-Filter  für
 Linux und andere Unixe.
 1.1 Die Vorteile
 Geringere Hardware-Anforderungen
 Eingabe erfolgt mit beliebigem Texteditor
 Über Betriebssystemgrenzen portables Dokumentformat
 Professioneller Satz nach Buchdruckregeln
 Sehr guter Formelsatz
 Frei kopierbar
 1.2 Die Nachteile
 Anfangs größerer Einarbeitungsaufwand
 Schwierig in andere Dokumentformate zu konvertieren (Informationsverlust)
 1.3 Unterstützte Systeme
 |           |Linux/Unix |TOS (Atari |MacOS      |Windows    |
 |           |           |ST)        |           |           |
 |TeX/LaTeX  |+          |+          |+          |+          |
 |Word       |-          |-          |+          |+          |

Reine Textdaten lassen sich natürlich besser mit Standard-Unix-Werkzeugen wie grep verarbeiten als sperrige .doc-Dateien. Um alle Zeilen herauszufiltern, die das Wort TeX enthalten, müssen Sie lediglich die antiword-Ausgabe an grep weiterreichen. Dabei verbindet das Pipe-Zeichen die beiden Programme:

antiword tex_ist_besser.doc | grep -w TeX

Neben reinem Text kann antiword auch Daten in der Seitenbeschreibungssprache PostScript erzeugen, die dann mit gv dargestellt oder ausgedruckt werden können. Der Aufruf sieht so aus:

antiword -p a4 tex_ist_besser.doc > tex_ist_besser.ps

Dieses Ausgabeformat bietet mehr Möglichkeiten zur Textdarstellung, und so bleiben beispielsweise Schriftfarben erhalten (Abbildung 2).

"Abbildung

Mit Filter

Wer nach dem Durchprobieren der verschiedenen textbasierten Mail-Programme schließlich zum Optimum – also mutt – gefunden hat, wird antiword gern direkt aus diesem Programm heraus aufrufen wollen. Dazu tragen Sie in die (gegebenenfalls neu zu erstellende) Datei .mailcap in Ihrem Home-Verzeichnis folgende Zeile ein:

application/msword; antiword %s

Ab sofort stellt muttAttachments mit dem MIME-Typ application/msword im internen Betrachter dar, ohne dass Sie Angst vor Makroviren haben müssen.

Der Datei-Manager Midnight Commander (mc) lässt sich auf ähnliche Weise erweitern. Wählen Sie aus seinem Menü Befehl / Suffixdaten bEarbeiten, oder öffnen Sie mit einem Editor die Datei ~/.mc/bindings. Tragen Sie dort folgende Zeilen ein, und speichern Sie die Änderung:

shell/.doc
       Open=antiword -p a4 %f | gv -
       View=%view{ascii} antiword %f

Drücken Sie [F3] (Anzeige), wenn der Balken-Cursor des mc über einer Word-Datei steht, stellt der interne Betrachter die Textausgabe von antiword dar. Benutzen Sie stattdessen die [Return]-Taste, wird die Datei ins PostScript-Format gewandelt und gleich an gv weitergeleitet.

Spezialitäten

Ein paar nützliche antiword-Optionen sollen nicht verschwiegen werden. Mit -L erzeugt das Programm die PostScript-Ausgabe im Querformat (“Landscape”). Das kann breite Tabellen besser lesbar machen.

Die Option -w col ist für die Textausgabe relevant und begrenzt die Zeilenlänge auf col Zeichen. Falls Sie den Inhalt des Dokuments in einer Mail zitieren wollen, ist etwa -w 75 anzuraten, da so noch genügend Platz für die Quoting-Zeichen bleibt.

Text, der mit der Word-Funktion Text verbergen “unsichtbar” gemacht wurde, stellt das Programm trotzdem dar, wenn Sie die Option -s benutzen. Was in antiword noch alles verborgen ist, verrät Ihnen die Manpage.

Glossar

Textkonsole
Zusätzlich zur grafischen Oberfläche X laufen auf einem Linux-System üblicherweise auch mehrere Konsolen im Textmodus. Von laufendem X aus erreichen Sie diese mit [Strg]-[Alt]-[F1] bis [F6]. Zurück zu X kommen Sie mit [Alt]-[F7].
Quelltext
Die für Menschen lesbare Form einer Software. Durch das Übersetzen (“Kompilieren”) mit einem Compiler wird daraus ein ausführbares Programm.
Shell-Skript
Eine Textdatei mit Shell-Kommandos, die automatisch nacheinander abgearbeitet werden.
Home-Verzeichnis
Das persönliche Heimatverzeichnis eines Benutzers. In diesem Verzeichnis landet er nach erfolgreicher Anmeldung oder mit dem Kommando cd ohne weitere Parameter.
Attachments
Der optionale Dateianhang einer E-Mail. Dieser kann nicht in Binärform übertragen werden, weil nichtdruckbare Zeichen dabei verlorengehen. Als Übertragungsformat von Binär-Attachments hat sich base64 durchgesetzt.
MIME
“Multipurpose Internet Mail Extensions”, eine Methode, um standardisiert Dateitypen anzugeben. Beispiele für MIME-Typen sind text/plain (reine Textdatei ohne Formatierungen) oder video/mpeg (MPEG-komprimierter Video-Stream). Zum Einsatz kommt MIME hauptsächlich in Mail-Programmen und Web-Browsern.
Quoting-Zeichen
Antwortet man mit der Reply-Funktion auf eine E-Mail, so wird der zitierte Mail-Text vom Mail-Programm durch Quoting-Zeichen am Zeilenanfang von dem Text, den Sie schreiben, unterscheidbar gemacht. Die meisten Mail-Programme halten sich an den Common Sense im Netz, der die Zeichenfolge “> ” (Größer-als- und Leerzeichen) vorschreibt. Allerdings stellen viele grafische Mail-Programme diese Zeichen nicht mit dar und machen das Zitat durch Andersfarbigkeit oder eine andere Schrift deutlich.
Manpage
Linux besitzt wie alle Unix-Systeme eine Art Online-Referenzhandbuch für die installierten Programme. Diese Hilfe wird mit man programmname aufgerufen, z. B. man antiword.
LinuxUser 10/2001 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben