Aus LinuxUser 10/2001

out of the box

Dagegen!

Werden Sie auch des Öfteren von „lieben Kollegen“ mit Word-Anhängen in E-Mails genervt? „out of the box“ zeigt Ihnen, wie sie auch ohne Word und andere Speicherfresser „mal eben“ ins Dokument hineinschauen.

out of the box

Es gibt tausende Tools und Utilities für Linux. „out of the box“ pickt sich die Rosinen raus und stellt pro Monat ein Progrämmchen vor, das wir für schlichtweg unentbehrlich oder aber zu Unrecht wenig beachtet halten.

So richtig kommt man eben doch nicht vor ihr los, der Windows-Welt. Oder doch? Mit antiword von Adri J. van Os lassen sich – selbst in der Textkonsole – Word-Dokumente gut lesbar darstellen.

Überschaubar

Obwohl antiword mit recht vielen Word-Formaten zurechtkommt, ist es ein sehr kompaktes Programm von nur etwa 100 kB Größe. Für die aktuelle Version 0.31 holen Sie sich den gepackten Quelltext von http://www.winfield.demon.nl/index.html oder von der Heft-CD.

Um die Installation von antiword zu vereinfachen, liegt auf der Heft-CD ein Shell-Skript namens ainst.sh bei. Kopieren Sie dieses bitte zusammen mit der Datei antiword-0.31.tar.gz in ein Verzeichnis, und starten Sie es mit sh ainst.sh.

Das Skript erledigt folgende Schritte:

  • Entpacken des Quellarchivs,
  • Kompilieren des Programms und
  • Kopieren von Dateien in Ihr Home-Verzeichnis und in den /usr/local-Ast des Dateisystems. Für das Schreiben in /usr/local werden root-Rechte benötigt – das Skript fragt das root-Passwort an der entsprechenden Stelle ab.

Wort für Wort

Um antiword zu testen, habe ich mich in die Höhle des Löwen gewagt und ein kurzes Word-Dokument tex_ist_besser.doc mit Micro$oft Word 8.0 geschrieben. Darin sind Überschriften in verschiedenen Ebenen, eine Aufzählung und eine Tabelle enthalten. Die Originaldarstellung ist in Abbildung 1 zu sehen.

Abbildung 1: Originaldarstellung in Word 8.0
Abbildung 1: Originaldarstellung in Word 8.0

Um antiword mit diesem Word-Dokument zu füttern, geben Sie in der Shell ein:

antiword tex_ist_besser.doc > tex_ist_besser.txt

Das >-Zeichen veranlasst die Shell dazu, die Ausgabe des Programms in die Datei tex_ist_besser.txt umzuleiten, ansonsten würde sie nur auf der Konsole „durchrauschen“.

In Listing 1 sehen sie die von antiword erzeugte Textausgabe. Auffällig ist, dass das Programm die Überschriften als solche identifiziert und eine entsprechende Nummerierung erzeugt. Ebenfalls erhalten geblieben ist die Blocksatzformatierung des ersten Absatzes. Die Tabellendarstellung könnte noch verbessert werden, hier wäre der textbasierte Web-Browser w3m ein Vorbild.

Listing 1

Textausgabe von antiword

1 Warum TeX besser als Word ist
 Dieses  Dokument  beschreibt  in  wenigen  Stichpunkten  die  Vorteile   von
 TeX/LaTeX   gegenüber   Word   und   WYSIWYG-Textverarbeitungen   allgemein.
 Natürlich werden auch potentielle Nachteile nicht verschwiegen.  Desweiteren
 dient dieses Dokument zur Demonstration von antiword, einem Word-Filter  für
 Linux und andere Unixe.
 1.1 Die Vorteile
 Geringere Hardware-Anforderungen
 Eingabe erfolgt mit beliebigem Texteditor
 Über Betriebssystemgrenzen portables Dokumentformat
 Professioneller Satz nach Buchdruckregeln
 Sehr guter Formelsatz
 Frei kopierbar
 1.2 Die Nachteile
 Anfangs größerer Einarbeitungsaufwand
 Schwierig in andere Dokumentformate zu konvertieren (Informationsverlust)
 1.3 Unterstützte Systeme
 |           |Linux/Unix |TOS (Atari |MacOS      |Windows    |
 |           |           |ST)        |           |           |
 |TeX/LaTeX  |+          |+          |+          |+          |
 |Word       |-          |-          |+          |+          |

Reine Textdaten lassen sich natürlich besser mit Standard-Unix-Werkzeugen wie grep verarbeiten als sperrige .doc-Dateien. Um alle Zeilen herauszufiltern, die das Wort TeX enthalten, müssen Sie lediglich die antiword-Ausgabe an grep weiterreichen. Dabei verbindet das Pipe-Zeichen die beiden Programme:

antiword tex_ist_besser.doc | grep -w TeX

Neben reinem Text kann antiword auch Daten in der Seitenbeschreibungssprache PostScript erzeugen, die dann mit gv dargestellt oder ausgedruckt werden können. Der Aufruf sieht so aus:

antiword -p a4 tex_ist_besser.doc > tex_ist_besser.ps

Dieses Ausgabeformat bietet mehr Möglichkeiten zur Textdarstellung, und so bleiben beispielsweise Schriftfarben erhalten (Abbildung 2).

LinuxUser 10/2001 KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS
Deutschland

Hinterlasse einen Kommentar

  E-Mail Benachrichtigung  
Benachrichtige mich zu: