Powerpoint-Parser

Msoscheme: Framework für Powerpoint-Umwandlung in XML bereit

Msoscheme: Framework für Powerpoint-Umwandlung in XML bereit

Marcel Hilzinger
22.09.2009 Durch die Übernahme von Trolltech und dem vermehrten Einsatz von Qt kommt der Office-Suite KOffice auf mobilen Geräten eine wachsende Bedeutung zu: es tut sich etwas.

Letzte Woche veröffentlichte der bei Nokia angestellte KOffice-Entwickler Thomas Zander in seinem Blog die Info, dass KOffice auf den künftigen Maemo-Versionen als Standard-Dokumentenbetrachter zum Einsatz kommen wird, praktisch gleichzeitig hat das KOffice-Team eine neue Beta-Version freigegeben, die unter anderem über einen deutlich verbesserten MS-Word-Importfilter verfügt.

Jetzt hat Jos van den Oever ein weiteres Stück Software geschrieben, um den Import von MS-Office-Dokumenten in KOffice zu verbessern: Einen Parser, der Powerpoint-Folien in XML umwandelt. Wie er in seinem Blog berichtet, besteht die Dokumentation zum Powerpoint-Format aus rund 660 Seiten, die Details zu den Grafiken (welche einen wichtigen Teil der Präsentationen ausmachen) umfassen weitere 620 Seiten.

Um sich nicht durch alle Seiten wälzen zu müssen, hat Van den Oever die Dokumentation in ein maschinenlesbares Format umgewandelt und daraus einen Parser entwickelt, der Powerpoint-Dateien ins XML-Format umwandelt. Über diese Methode lassen sich große Mengen von Powerpoint-Dateien einlesen und eventuelle Schwachstellen und Fehler finden. Das resultierende XML wiederum kann als Basis für einen Import-Filter benutzt werden.

Als Resultat steht nun das Qt-Programm ppttoxml zum Download bereit, welches einen C++- und Java-Parser enthält. Jos van den Oever bittet auch andere Entwickler, Parser für ihre Lieblingssprache zu schreiben, was mit weniger als 700 Zeilen Code erledigt werden könne.

Wer sich für Msoscheme interessiert und sich an der Entwicklung beteiligen möchte, kommt über folgende Befehle zum Quellcode und zum Binary:

git clone git://gitorious.org/msoscheme/msoscheme.git
mkdir msoscheme/cpp/build
cd msoscheme/cpp/build
cmake ..
make
./ppttoxml myfile.ppt myfile.xml

Treibende Kraft hinter den neuesten KOffice-Entwicklungen ist in erster Linie die von KOffice-Entwicklern gegründete KO GmbH, zu der auch Jos van den Oever gehört.

Ähnliche Artikel

Kommentare
Das verstehe ich nicht.
Wolfgang (unangemeldet), Dienstag, 22. September 2009 09:50:00
Ein/Ausklappen

Van den Oever nimmt ein Buch, wandelt den Inhalt in Nullen und Einsen um und fertig ist der Parser?!


Bewertung: 110 Punkte bei 12 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Das verstehe ich nicht.
max. (unangemeldet), Dienstag, 22. September 2009 10:42:44
Ein/Ausklappen

Also im Original steht folgendes:
It is easier to convert the documentation to a computer readable format and generate parsers for different situations from that. This is now being done in msoscheme. It comes with a big file called mso.xml which already contains a very large part of the documentation. From this file, a C++ and a Java parser are generated (Java, C++). Both parsers can deserialize ppt files to a runtime representation that can be the start for conversion to e.g. ODF.

Ich verstehe es zwar auch nicht ganz, aber vermutlich stimmt es, was der Artikel sagt.


Bewertung: 150 Punkte bei 12 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...