Daten mit Bedeutung
KDEs semantischer Desktop
Scribo natürlich
Das vom französischen Staat mitfinanziertes Forschungsprojekt NLP ("Natural Language Processing") befasst sich mit der Analyse der menschlichen Sprache, also der Frage, wie man Texten semantische Informationen entlocken kann. Die ersten Ergebnisse, die man bereits in KDEs Quellcode-Repositories findet, erweisen sich dabei als vielversprechend. So zeigt die Testapplikation Scribo-Shell [8], wie man Texte automatisch analysieren und aus den Ergebnissen eine Liste mit sinnvollen Schlagworten und Themen generieren kann.
Zur Textanalyse kommt dabei ein Algorithmus des DERI-Instituts zum Einsatz, eines in Irland ansässigen wissenschaftlichen Partners im Nepomuk- und NLP-Projekt. Einen weiteren Ansatz bietet die Nutzung von Webservices zur Textanalyse. Die ebenfalls in Scribo Shell demonstrierte Schnittstelle OpenCalais bindet dabei einen Webservice eine umfangreiche Datenbank der Nachrichtenagentur Reuters ein und kann so Texte anhand eines großen Datenpools auseinanderpflücken. Scribo beschränkt sich jedoch nicht nur auf Text, sondern hat auch Bilder im Visier.
Hoch hinaus
Natürlich sind nicht nur Dateien interessant, sondern auch Daten, die man online speichert. Hier kommt der Groupware-Cache Akonadi ins Spiel, der mit dem KDE-Addressbuch in Version 4.4 seinen Einstand in der KDE Software Compilation feiert. Die PIM-Entwickler arbeiten derzeit hart an der Umstellung weiter Komponenten aus dem Kontact-Paket. Mit dem Release 4.5 steht für diesen Sommer wie bereits erwähnt ein auf Akonadi basierendes KMail auf dem Programm.
Die PIM-Hacker setzen dabei in Akonadi auf die Fähigkeiten Nepomuks, das die Volltextsuche in E-Mails und Attachments übernimmt. Akonadi benutzt derzeit noch eine eigene MySQL-Datenbank, doch die PIM-Entwickler denken bereits darüber nach, als Speicher-Backend ebenfalls Virtuoso zu benutzen, was sich günstig auf den Speicherverbrauch auswirken würde. Das Personal Information Management könnte dabei ganz besonders von den semantischen Funktionen profitieren – Kontakte und Identitäten lassen sich zum Beispiel hervorragend in der NCO-Ontologie normalisieren.
Akonadi spielt dabei die Rolle des Datenknechts: Es importiert und synchronisiert über Plugins verschiedene Datenquellen. Im einfachsten Fall handelt es sich bei so einer Datenquelle etwa um eine Kontakt-Visitenkarte auf der lokalen Festplatte. Es gibt aber auch Datenquellen – sogenannte Agents – die IMAP- oder Groupware-Server einbinden. Eintreffende E-Mails lassen sich so direkt indizieren. Dies ermöglicht es dann auch, virtuelle Folder anzulegen: also quasi voreingestellte Suchanfragen, die sich wie eine E-Mail-Mappe verhalten. Beim Indizieren von E-Mails bietet sich zudem die Möglichkeit, den Text auch inhaltlich zu analysieren und eventuell automatisch zu verschlagworten, oder mit anderen Nepomuk-Ressource zu verlinken.



