Word-Datei formatieren

In der ersten Zeile von Listing 1 lädt Wget eine Word-Datei herunter und speichert sie unter dem Namen demo2.docx im Dateisystem. Pandoc kann die Datei nicht selbst herunterladen, da es sich bei dem komprimierten Dateiformat DOCX nicht um eine Textdatei handelt. Der zweite Schritt wandelt das Dokument nach Markdown um. Die Schalter -f und -t legen dabei die Dateitypen fest. Da Markdown sie an den Dateiendungen erkennt, sind die Schalter entbehrlich.

Listing 1

$ wget https://vomunterrichtzumlernen.files.wordpress.com/2015/02/manual-podiumsdiskussion.docx -O demo2.docx
$ pandoc -f docx -t markdown --atx-headers --toc --extract-media="." demo2.docx -o demo2.md

Wie wir noch sehen werden, könnten im konkreten Fall die Anweisungen --atx-headers (Überschriften durch vorangestelltes Raute-Zeichen auszeichnen statt durch Unterstriche) und --toc (Inhaltsverzeichnis erstellen) auch entfallen. Der Zusatz --extract-media weist das Programm an, alle Bilder zu extrahieren. Geben Sie dabei wie im Beispiel das aktuelle Verzeichnis an, überträgt das Programm sie in ein Unterverzeichnis mit der festen Bezeichnung media.

Die MS-Word-Datei, die freundlicherweise von Herrn Norbert Hillebrecht unter einer freien Lizenz zur Verfügung gestellt wurde, untersuchen wir im Folgenden ausschließlich in Hinblick auf die Gestaltung. Ein Vergleich von Original (Abbildung 1) und Markdown-Version (Abbildung 2) veranschaulicht die Arbeitsweise von Pandoc: Markdown beherrscht nur Formatierungen, die den Text strukturieren – Einfärbungen gehen verloren.

Abbildung 1: Ein Ausschnitt aus der Word-Datei zeigt, welche Formatierungen im Original zum Einsatz kamen.
Abbildung 2: Das Umsetzen der ursprünglichen Formate in Markdown gelingt nur bis zu einem gewissen Grad.

Ein genauer Blick in die Originaldatei zeigt, dass der Autor dort gar keine Überschriften festgelegt hat. Die Auszeichnungen erfolgten lediglich durch Hervorhebungen wie Fettschrift, Schriftgröße oder Farbe. Dadurch verliert der Text ein wichtiges Gestaltungselement, ein automatisches Erstellen eines Inhaltsverzeichnisses (--toc) gelingt so beispielsweise nicht.

Alle Aufzählungslisten kamen ebenfalls manuell zustande, das Nummerieren erfolgte von Hand. Aus diesem Grund kann Pandoc keine Spiegellisten erkennen und versucht daher, das Format so gut wie möglich wiederzugeben. Das Umsetzen der Tabellen in Markdown gelingt ebenfalls nicht ganz. Zum einen erstrecken sich die Zeilentrenner (-----) über viele Zeilen und erschweren das Lesen, zum anderen interpretiert die Software Absätze in Tabellen als neue Zeilen. Außerdem ignoriert Markdown Kopf- und Fußzeilen. Es besteht aber die Möglichkeit, die Originaldatei bei der Transformation in DOCX als Referenz anzugeben.

Pandoc kennt einige vordefinierte Variablen, die Sie am Textanfang durch drei Striche (---) klammern. Eine Struktur des Texts in Markdown finden Sie in Listing 2. Die Transformation nach Word geschieht mit folgendem Aufruf:

$ pandoc --toc --reference-doc=demo2.docx demo2r.md -o demo2r.docx

Über --reference-doc schaut sich der Konverter die Fuß- und Kopfzeilen aus der Referenzdatei demo2.doc ab. Darüber hinaus übernimmt er die Formate für Titel, Autor und Überschriften. Liegen in der Referenz keine Beschreibungen für Überschriften vor, wird ein Zwischenschritt notwendig. Am einfachsten führen Sie zunächst die Transformation ohne den Verweis auf die Originaldatei durch. Anschließend kopieren Sie das Ergebnis in die Referenzdatei. Passen Sie die Formate der Überschriften und Titel in Word Ihren Wünschen an, und wiederholen Sie die Transformation mit der erweiterten Referenzdatei.

Listing 2

---
author: Norbert Hillebrecht
title: Manual zur Vorbereitung und Auswertung der Veranstaltung
date: Datum
---
# Einleitung
Die Podiumsdiskussion wurde von der Profilklasse\\ 12 _MenschWelt_
vorbereitet
(...)
# Projektleitung, Malte Bartel
Folgende Aspekte sind zu beachten (...):
1. Verschiedene Projektbereiche definieren (...)
2. Gruppeneinteilung
3. Arbeitsaufträge
(...)

Fußnoten und Querverweise

Bei einer wissenschaftlichen Arbeit steht der Inhalt im Vordergrund. Die Formatierung erfolgt erst später, sobald der Inhalt geschrieben ist. Beliebt sind simple Textdateien, die keine Ansprüche an die Auswahl des Betriebssystems stellen und den einfachen Austausch mit Kollegen erlauben. Das Gerüst lässt sich schnell erstellen und mit Stichworten füllen, anschließend entsteht der ausformulierte Text. Bei Bedarf binden Sie noch Bilder und Tabellen ein.

Gleichungen folgen der Formatierungssprache von LaTeX. Mathematische Ausdrücke innerhalb des Texts schließen Sie mit einem Dollar-Zeichen ein. Komplexe mathematische Ausdrücke (Abbildung 3) stehen zwischen zwei Dollar-Zeichen in jeweils einer eigenen Zeile (Listing 3).

Abbildung 3: Pandoc erzeugt bei Bedarf selbst komplexe mathematische Formeln, die Sie im Quelltext in einem an LaTeX angelehnten Format eingeben.

Listing 3

$$
\bar{x}_{\mathrm{arithm}}  = \frac{1}{n} \sum_{i=1}^n{x_i}
$$ {#eq:item}

Mit dem Ausdruck @eq:item verweisen Sie bei Bedarf auf die Formel, der Sie die Referenz {#eq:item} mitgegeben haben. Das Referenzieren erfordert eine Erweiterung [4], die Sie als Filter beim Aufruf von Pandoc einbinden – Ähnliches gilt für Bilder [5] und Tabellen [6]. Listing 4 zeigt, wie Sie diese Addons in Pandoc integrieren. Die Fehlermeldung in der zweiten Zeile fordert zur Installation des Python-Paketmanagers Pip auf, falls dieser auf dem System noch fehlt.

Listing 4

$ pip install pandoc-fignos
The program 'pip' is currently not installed.
$ sudo apt install python-pip
$ sudo pip install pandoc-fignos
$ sudo pip install pandoc-eqnos
$ sudo pip install pandoc-tablenos

Pandoc bringt Werkzeuge mit, um die Quellenangaben aus Fachzeitschriften in das richtige Format zu bringen. Die Erläuterung der zugehörigen CSL-Formatdateien ("Citation Style Language") würde allerdings den Umfang dieses Artikels sprengen. Ähnliches gilt auch für das Verwalten von Quelltexten in Formaten wie BibTeX oder BibLaTeX.

Verweise auf Überschriften und Fußnoten bringt Pandoc von Haus aus mit. Die Tabelle "Verweise" zeigt die Schreibweisen für die unterschiedlichen Referenzen. Um auch die anderen genannten Querverweise zu nutzen, rufen Sie das Programm wie in Listing 5 gezeigt auf. Aktuell arbeiten die Entwickler daran, die Filter zusammenzufassen und Referenzlisten automatisch zu erzeugen [7].

Verweise

Verweistyp Verweis Referenz
Fußnote [^item] [^item]:
Überschriften (#item) {#item}
Quellennachweis @item @Article{item}
Bild @fig:item {#fig:item}
Tabelle @tbl:item {#tbl:item}
Gleichung @eq:item {#eq:item}

Listing 5

$ pandoc --filter pandoc-fignos --filter pandoc-eqnos --filter pandoc-tablenos --filter pandoc-citeproc myfile.md -o myfile.docx

Wie typische Textverarbeitungsprogramme kann auch Pandoc Änderungen in Dokumenten nachverfolgen. Mit dem Kommando aus der ersten Zeile von Listing 6 übernehmen Sie alle Änderungen aus dem Office-Dokument office.docx in das Markdown-Dokument myfile.md. Die Anweisung aus Zeile 2 verwirft alle Änderungen, die aus Zeile 3 protokolliert diese.

Listing 6

$ pandoc office.docx -o myfile.md --track-changes=accept
$ pandoc office.docx -o myfile.md --track-changes=reject
$ pandoc office.docx -o myfile.md --track-changes=all

Markdown greift auf HTML-Syntax zurück, sobald es auf nicht standardisierte Anweisungen trifft. So entsteht aus der in Abbildung 4 gezeigten Datei office.docx durch den Aufruf aus der letzten Zeile von Listing 6 der Markdown-Schnipsel aus Listing 7.

Abbildung 4: Markierungen zeigen an, an welchen Stellen Autoren ein Dokument im Verlauf der Arbeit geändert haben. Pandoc greift bei der Ausgabe in Markdown auf HTML-Syntax zurück.

Listing 7

~~~ {.html}
Beispiel für streichen,
und ein Beispiel für einfügen in Pandoc Markdown->Office.
~~~

Um Änderungen zu übernehmen, löschen Sie die Span-Tags aus der Markdown-Datei. Nach der Transformation von Markdown nach DOCX lassen sich die Markierungen für Überarbeitungen nicht mehr von denen unterscheiden, die ursprünglich im Office-Programm vorlagen. Fehlen Angaben zum Autor und Datum der Änderung, ergänzt das Programm sie aus dem Kontext.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

Broadcom Adapter 802.11n nachinstallieren
Thomas Mengel, 31.10.2017 20:06, 2 Antworten
Hallo, kann man nachträglich auf einer Liveversion, MX Linux auf einem USB-Stick, nachträglich...
RUN fsck Manually / Stromausfall
Arno Krug, 29.10.2017 12:51, 1 Antworten
Hallo, nach Absturz des Rechners aufgrund fehlendem Stroms startet Linux nicht mehr wie gewohn...
source.list öffnet sich nicht
sebastian reimann, 27.10.2017 09:32, 2 Antworten
hallo Zusammen Ich habe das problem Das ich meine source.list nicht öffnen kann weiß vlt jemman...
Lieber Linux oder Windows- Betriebssystem?
Sina Kaul, 13.10.2017 16:17, 6 Antworten
Hallo, bis jetzt hatte ich immer nur mit
IT-Kurse
Alice Trader, 26.09.2017 11:35, 2 Antworten
Hallo liebe Community, ich brauche Hilfe und bin sehr verzweifelt. Ih bin noch sehr neu in eure...