Powerpoint-Parser

Msoscheme: Framework für Powerpoint-Umwandlung in XML bereit

Msoscheme: Framework für Powerpoint-Umwandlung in XML bereit

Marcel Hilzinger
22.09.2009 Durch die Übernahme von Trolltech und dem vermehrten Einsatz von Qt kommt der Office-Suite KOffice auf mobilen Geräten eine wachsende Bedeutung zu: es tut sich etwas.

Letzte Woche veröffentlichte der bei Nokia angestellte KOffice-Entwickler Thomas Zander in seinem Blog die Info, dass KOffice auf den künftigen Maemo-Versionen als Standard-Dokumentenbetrachter zum Einsatz kommen wird, praktisch gleichzeitig hat das KOffice-Team eine neue Beta-Version freigegeben, die unter anderem über einen deutlich verbesserten MS-Word-Importfilter verfügt.

Jetzt hat Jos van den Oever ein weiteres Stück Software geschrieben, um den Import von MS-Office-Dokumenten in KOffice zu verbessern: Einen Parser, der Powerpoint-Folien in XML umwandelt. Wie er in seinem Blog berichtet, besteht die Dokumentation zum Powerpoint-Format aus rund 660 Seiten, die Details zu den Grafiken (welche einen wichtigen Teil der Präsentationen ausmachen) umfassen weitere 620 Seiten.

Um sich nicht durch alle Seiten wälzen zu müssen, hat Van den Oever die Dokumentation in ein maschinenlesbares Format umgewandelt und daraus einen Parser entwickelt, der Powerpoint-Dateien ins XML-Format umwandelt. Über diese Methode lassen sich große Mengen von Powerpoint-Dateien einlesen und eventuelle Schwachstellen und Fehler finden. Das resultierende XML wiederum kann als Basis für einen Import-Filter benutzt werden.

Als Resultat steht nun das Qt-Programm ppttoxml zum Download bereit, welches einen C++- und Java-Parser enthält. Jos van den Oever bittet auch andere Entwickler, Parser für ihre Lieblingssprache zu schreiben, was mit weniger als 700 Zeilen Code erledigt werden könne.

Wer sich für Msoscheme interessiert und sich an der Entwicklung beteiligen möchte, kommt über folgende Befehle zum Quellcode und zum Binary:

git clone git://gitorious.org/msoscheme/msoscheme.git
mkdir msoscheme/cpp/build
cd msoscheme/cpp/build
cmake ..
make
./ppttoxml myfile.ppt myfile.xml

Treibende Kraft hinter den neuesten KOffice-Entwicklungen ist in erster Linie die von KOffice-Entwicklern gegründete KO GmbH, zu der auch Jos van den Oever gehört.

Ähnliche Artikel

Kommentare
Das verstehe ich nicht.
Wolfgang (unangemeldet), Dienstag, 22. September 2009 09:50:00
Ein/Ausklappen

Van den Oever nimmt ein Buch, wandelt den Inhalt in Nullen und Einsen um und fertig ist der Parser?!


Bewertung: 119 Punkte bei 14 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Das verstehe ich nicht.
max. (unangemeldet), Dienstag, 22. September 2009 10:42:44
Ein/Ausklappen

Also im Original steht folgendes:
It is easier to convert the documentation to a computer readable format and generate parsers for different situations from that. This is now being done in msoscheme. It comes with a big file called mso.xml which already contains a very large part of the documentation. From this file, a C++ and a Java parser are generated (Java, C++). Both parsers can deserialize ppt files to a runtime representation that can be the start for conversion to e.g. ODF.

Ich verstehe es zwar auch nicht ganz, aber vermutlich stimmt es, was der Artikel sagt.


Bewertung: 142 Punkte bei 13 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Aktuelle Fragen

Neue SuSE-Literatur
Roland Welcker, 14.01.2015 14:10, 1 Antworten
Verehrte Linux-Freunde, seit Hans-Georg Essers Buch "LINUX" und Stefanie Teufels "Jetzt lerne ich...
DVD abspielen unter openSUSE 13.1
Michael Pfaffe, 12.01.2015 11:48, 6 Antworten
Hallo Linuxer, Bisher habe ich meine DVD´s mit linDVD unter openSUSE abgespielt. Mit der Versi...
Kontrollleiste SuSE 12.3 gestalten
Roland Welcker, 31.12.2014 14:06, 1 Antworten
Wie bekomme ich das Icon eines beliebigen Programms (aktuell DUDEN) in die Kontrollleiste und kan...
flash-player
roland reiner, 27.12.2014 15:24, 7 Antworten
Mein Flashplayer funktioniert nicht mehr-Plug in wird nicht mehr unterstütz,auch über google chro...
PCLinuxOS Version 2014.08 "FullMonty" Umstellung auf deutsch
Karl-Heinz Welz, 19.12.2014 09:55, 10 Antworten
Hallo, liebe Community, ich bin 63 Jahre alt und möchte jetzt nach Jahrzehnten Windows zu Linux...