antiword.png

out of the box

Dagegen!

Werden Sie auch des Öfteren von "lieben Kollegen" mit Word-Anhängen in E-Mails genervt? "out of the box" zeigt Ihnen, wie sie auch ohne Word und andere Speicherfresser "mal eben" ins Dokument hineinschauen.

out of the box

Es gibt tausende Tools und Utilities für Linux. "out of the box" pickt sich die Rosinen raus und stellt pro Monat ein Progrämmchen vor, das wir für schlichtweg unentbehrlich oder aber zu Unrecht wenig beachtet halten.

So richtig kommt man eben doch nicht vor ihr los, der Windows-Welt. Oder doch? Mit antiword von Adri J. van Os lassen sich – selbst in der Textkonsole – Word-Dokumente gut lesbar darstellen.

Überschaubar

Obwohl antiword mit recht vielen Word-Formaten zurechtkommt, ist es ein sehr kompaktes Programm von nur etwa 100 kB Größe. Für die aktuelle Version 0.31 holen Sie sich den gepackten Quelltext von http://www.winfield.demon.nl/index.html oder von der Heft-CD.

Um die Installation von antiword zu vereinfachen, liegt auf der Heft-CD ein Shell-Skript namens ainst.sh bei. Kopieren Sie dieses bitte zusammen mit der Datei antiword-0.31.tar.gz in ein Verzeichnis, und starten Sie es mit sh ainst.sh.

Das Skript erledigt folgende Schritte:

  • Entpacken des Quellarchivs,
  • Kompilieren des Programms und
  • Kopieren von Dateien in Ihr Home-Verzeichnis und in den /usr/local-Ast des Dateisystems. Für das Schreiben in /usr/local werden root-Rechte benötigt – das Skript fragt das root-Passwort an der entsprechenden Stelle ab.

Wort für Wort

Um antiword zu testen, habe ich mich in die Höhle des Löwen gewagt und ein kurzes Word-Dokument tex_ist_besser.doc mit Micro$oft Word 8.0 geschrieben. Darin sind Überschriften in verschiedenen Ebenen, eine Aufzählung und eine Tabelle enthalten. Die Originaldarstellung ist in Abbildung 1 zu sehen.

Abbildung 1: Originaldarstellung in Word 8.0

Um antiword mit diesem Word-Dokument zu füttern, geben Sie in der Shell ein:

antiword tex_ist_besser.doc > tex_ist_besser.txt

Das >-Zeichen veranlasst die Shell dazu, die Ausgabe des Programms in die Datei tex_ist_besser.txt umzuleiten, ansonsten würde sie nur auf der Konsole "durchrauschen".

In Listing 1 sehen sie die von antiword erzeugte Textausgabe. Auffällig ist, dass das Programm die Überschriften als solche identifiziert und eine entsprechende Nummerierung erzeugt. Ebenfalls erhalten geblieben ist die Blocksatzformatierung des ersten Absatzes. Die Tabellendarstellung könnte noch verbessert werden, hier wäre der textbasierte Web-Browser w3m ein Vorbild.

Listing 1

Textausgabe von antiword

1 Warum TeX besser als Word ist
 Dieses  Dokument  beschreibt  in  wenigen  Stichpunkten  die  Vorteile   von
 TeX/LaTeX   gegenüber   Word   und   WYSIWYG-Textverarbeitungen   allgemein.
 Natürlich werden auch potentielle Nachteile nicht verschwiegen.  Desweiteren
 dient dieses Dokument zur Demonstration von antiword, einem Word-Filter  für
 Linux und andere Unixe.
 1.1 Die Vorteile
 Geringere Hardware-Anforderungen
 Eingabe erfolgt mit beliebigem Texteditor
 Über Betriebssystemgrenzen portables Dokumentformat
 Professioneller Satz nach Buchdruckregeln
 Sehr guter Formelsatz
 Frei kopierbar
 1.2 Die Nachteile
 Anfangs größerer Einarbeitungsaufwand
 Schwierig in andere Dokumentformate zu konvertieren (Informationsverlust)
 1.3 Unterstützte Systeme
 |           |Linux/Unix |TOS (Atari |MacOS      |Windows    |
 |           |           |ST)        |           |           |
 |TeX/LaTeX  |+          |+          |+          |+          |
 |Word       |-          |-          |+          |+          |

Reine Textdaten lassen sich natürlich besser mit Standard-Unix-Werkzeugen wie grep verarbeiten als sperrige .doc-Dateien. Um alle Zeilen herauszufiltern, die das Wort TeX enthalten, müssen Sie lediglich die antiword-Ausgabe an grep weiterreichen. Dabei verbindet das Pipe-Zeichen die beiden Programme:

antiword tex_ist_besser.doc | grep -w TeX

Neben reinem Text kann antiword auch Daten in der Seitenbeschreibungssprache PostScript erzeugen, die dann mit gv dargestellt oder ausgedruckt werden können. Der Aufruf sieht so aus:

antiword -p a4 tex_ist_besser.doc > tex_ist_besser.ps

Dieses Ausgabeformat bietet mehr Möglichkeiten zur Textdarstellung, und so bleiben beispielsweise Schriftfarben erhalten (Abbildung 2).

Abbildung 2: PostScript-Darstellung mit gv

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
  • Software
  • out of the box
    Vor einiger Zeit stellten wir in dieser Rubrik antiword – einen Filter für Word-Dokumente – vor. Ein ähnlich brauchbares Stück Software für Excel-Tabellen fehlte bislang jedoch. Diese Lücke wird nun von xlhtml geschlossen.
  • lesspipe
    Das Programm less als komfortablen Ersatz für more werden die Meisten schon kennen. Mit einem Skript ausgestattet kann es mehr als bloße Textdateien anzeigen.
  • Nadel im Heuhaufen
    Ob Brief ans Finanzamt oder Mail vom Onlinehändler – mit der Desktopsuchmaschine Recoll finden Sie wichtige Dateien mit wenigen Mausklicks.
Kommentare

Infos zur Publikation

LU 03/2018 NEUE DISTRIBUTIONEN

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Internet abschalten
Karl-Heinz Hauser, 20.02.2018 20:10, 2 Antworten
In der Symbolleiste kann man das Kabelnetzwerk ein und ausschalten. Wie sicher ist die Abschaltu...
JQuery-Script läuft nicht mit Linux-Browsern
Stefan Jahn, 16.02.2018 12:49, 2 Antworten
Hallo zusammen, ...folgender goldener Code (ein jQuery-Script als Ergebnis verschiedener Exper...
XSane-Fotokopie druckt nicht mehr
Wimpy *, 30.01.2018 13:29, 2 Antworten
openSuse 42.3 KDE 5.8.7 Seit einem Software-Update druckt XSane keine Fotokopie mehr aus. Fehler...
TOR-Browser stürzt wegen Wikipedia ab
Wimpy *, 27.01.2018 14:57, 0 Antworten
Tor-Browser 7.5 based on Mozilla Firefox 52.8.0 64-Bit. Bei Aufruf von http: oder https://de.wi...
Wifikarte verhindert Bootvorgang
Maik Kühn, 21.01.2018 22:23, 1 Antworten
iwlwifi-7265D -26 failed to load iwlwifi-7265D -25 failed to load iwlwifi-7265D -24 failed to l...