Powerpoint-Parser

Msoscheme: Framework für Powerpoint-Umwandlung in XML bereit

Msoscheme: Framework für Powerpoint-Umwandlung in XML bereit

Marcel Hilzinger
22.09.2009 Durch die Übernahme von Trolltech und dem vermehrten Einsatz von Qt kommt der Office-Suite KOffice auf mobilen Geräten eine wachsende Bedeutung zu: es tut sich etwas.

Letzte Woche veröffentlichte der bei Nokia angestellte KOffice-Entwickler Thomas Zander in seinem Blog die Info, dass KOffice auf den künftigen Maemo-Versionen als Standard-Dokumentenbetrachter zum Einsatz kommen wird, praktisch gleichzeitig hat das KOffice-Team eine neue Beta-Version freigegeben, die unter anderem über einen deutlich verbesserten MS-Word-Importfilter verfügt.

Jetzt hat Jos van den Oever ein weiteres Stück Software geschrieben, um den Import von MS-Office-Dokumenten in KOffice zu verbessern: Einen Parser, der Powerpoint-Folien in XML umwandelt. Wie er in seinem Blog berichtet, besteht die Dokumentation zum Powerpoint-Format aus rund 660 Seiten, die Details zu den Grafiken (welche einen wichtigen Teil der Präsentationen ausmachen) umfassen weitere 620 Seiten.

Um sich nicht durch alle Seiten wälzen zu müssen, hat Van den Oever die Dokumentation in ein maschinenlesbares Format umgewandelt und daraus einen Parser entwickelt, der Powerpoint-Dateien ins XML-Format umwandelt. Über diese Methode lassen sich große Mengen von Powerpoint-Dateien einlesen und eventuelle Schwachstellen und Fehler finden. Das resultierende XML wiederum kann als Basis für einen Import-Filter benutzt werden.

Als Resultat steht nun das Qt-Programm ppttoxml zum Download bereit, welches einen C++- und Java-Parser enthält. Jos van den Oever bittet auch andere Entwickler, Parser für ihre Lieblingssprache zu schreiben, was mit weniger als 700 Zeilen Code erledigt werden könne.

Wer sich für Msoscheme interessiert und sich an der Entwicklung beteiligen möchte, kommt über folgende Befehle zum Quellcode und zum Binary:

git clone git://gitorious.org/msoscheme/msoscheme.git
mkdir msoscheme/cpp/build
cd msoscheme/cpp/build
cmake ..
make
./ppttoxml myfile.ppt myfile.xml

Treibende Kraft hinter den neuesten KOffice-Entwicklungen ist in erster Linie die von KOffice-Entwicklern gegründete KO GmbH, zu der auch Jos van den Oever gehört.

Ähnliche Artikel

Kommentare
Das verstehe ich nicht.
Wolfgang (unangemeldet), Dienstag, 22. September 2009 09:50:00
Ein/Ausklappen

Van den Oever nimmt ein Buch, wandelt den Inhalt in Nullen und Einsen um und fertig ist der Parser?!


Bewertung: 114 Punkte bei 15 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Das verstehe ich nicht.
max. (unangemeldet), Dienstag, 22. September 2009 10:42:44
Ein/Ausklappen

Also im Original steht folgendes:
It is easier to convert the documentation to a computer readable format and generate parsers for different situations from that. This is now being done in msoscheme. It comes with a big file called mso.xml which already contains a very large part of the documentation. From this file, a C++ and a Java parser are generated (Java, C++). Both parsers can deserialize ppt files to a runtime representation that can be the start for conversion to e.g. ODF.

Ich verstehe es zwar auch nicht ganz, aber vermutlich stimmt es, was der Artikel sagt.


Bewertung: 148 Punkte bei 15 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Aktuelle Fragen

Start-Job behindert Bootvorgang, Suse 13.2, KDE,
Wimpy *, 20.02.2015 10:32, 4 Antworten
Beim Bootvorgang ist ein Timeout von 1 Min 30 Sec. weil eine Partition sdb1 gesucht und nicht gef...
Konfiguration RAID 1 mit 2 SSDs: Performance?
Markus Mertens, 16.02.2015 10:02, 4 Antworten
Hallo! Ich möchte bei einer Workstation (2x Xeon E5-2687Wv3, 256GB RAM) 2 SATA-SSDs (512GB) al...
Treiber für Canon Laserbase MF5650
Sven Bremer, 10.02.2015 09:46, 1 Antworten
Hallo ich weiß mittlerweile das Canon nicht der beste Drucker für ein Linux System ist. Trotzd...
Linux und W7 im Netz finden sich nicht
Oliver Zoffi, 06.02.2015 11:47, 3 Antworten
Hallo! Ich verwende 2 PCs, 1x mit W7prof 64 Bit und einmal mit Linux Mint 17 64 Bit, welches ich...
Rootpasswort
Jutta Naumann, 29.01.2015 09:14, 1 Antworten
Ich habe OpenSuse 13.2 installiert und leider nur das Systempasswort eingerichtet. Um Änderungen,...