Scribo natürlich

Das vom französischen Staat mitfinanziertes Forschungsprojekt NLP ("Natural Language Processing") befasst sich mit der Analyse der menschlichen Sprache, also der Frage, wie man Texten semantische Informationen entlocken kann. Die ersten Ergebnisse, die man bereits in KDEs Quellcode-Repositories findet, erweisen sich dabei als vielversprechend. So zeigt die Testapplikation Scribo-Shell [8], wie man Texte automatisch analysieren und aus den Ergebnissen eine Liste mit sinnvollen Schlagworten und Themen generieren kann.

Zur Textanalyse kommt dabei ein Algorithmus des DERI-Instituts zum Einsatz, eines in Irland ansässigen wissenschaftlichen Partners im Nepomuk- und NLP-Projekt. Einen weiteren Ansatz bietet die Nutzung von Webservices zur Textanalyse. Die ebenfalls in Scribo Shell demonstrierte Schnittstelle OpenCalais bindet dabei einen Webservice eine umfangreiche Datenbank der Nachrichtenagentur Reuters ein und kann so Texte anhand eines großen Datenpools auseinanderpflücken. Scribo beschränkt sich jedoch nicht nur auf Text, sondern hat auch Bilder im Visier.

Hoch hinaus

Natürlich sind nicht nur Dateien interessant, sondern auch Daten, die man online speichert. Hier kommt der Groupware-Cache Akonadi ins Spiel, der mit dem KDE-Addressbuch in Version 4.4 seinen Einstand in der KDE Software Compilation feiert. Die PIM-Entwickler arbeiten derzeit hart an der Umstellung weiter Komponenten aus dem Kontact-Paket. Mit dem Release 4.5 steht für diesen Sommer wie bereits erwähnt ein auf Akonadi basierendes KMail auf dem Programm.

Die PIM-Hacker setzen dabei in Akonadi auf die Fähigkeiten Nepomuks, das die Volltextsuche in E-Mails und Attachments übernimmt. Akonadi benutzt derzeit noch eine eigene MySQL-Datenbank, doch die PIM-Entwickler denken bereits darüber nach, als Speicher-Backend ebenfalls Virtuoso zu benutzen, was sich günstig auf den Speicherverbrauch auswirken würde. Das Personal Information Management könnte dabei ganz besonders von den semantischen Funktionen profitieren – Kontakte und Identitäten lassen sich zum Beispiel hervorragend in der NCO-Ontologie normalisieren.

Akonadi spielt dabei die Rolle des Datenknechts: Es importiert und synchronisiert über Plugins verschiedene Datenquellen. Im einfachsten Fall handelt es sich bei so einer Datenquelle etwa um eine Kontakt-Visitenkarte auf der lokalen Festplatte. Es gibt aber auch Datenquellen – sogenannte Agents – die IMAP- oder Groupware-Server einbinden. Eintreffende E-Mails lassen sich so direkt indizieren. Dies ermöglicht es dann auch, virtuelle Folder anzulegen: also quasi voreingestellte Suchanfragen, die sich wie eine E-Mail-Mappe verhalten. Beim Indizieren von E-Mails bietet sich zudem die Möglichkeit, den Text auch inhaltlich zu analysieren und eventuell automatisch zu verschlagworten, oder mit anderen Nepomuk-Ressource zu verlinken.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Xesam und Nepomuk fusionieren
    Sebastian Trüg erklärt die Konkurrenz zwischen den semantischen Frameworks Xesam und Nepomuk für beendet.
  • Daten mit Bedeutung
    In KDE 4 hält der semantische Desktop Einzug. Über die Nepomukdienste kann der Benutzer nun flott durch seine Dateien suchen. Der semantische Desktop hat jedoch weit mehr zu bieten, als nur die Desktopsuche.
  • Baloo: Dem semantischen Desktop ein Stück näher
    Die Desktopsuche unter KDE SC 4 verbrauchte bisher zu viele Ressourcen und ließ eine ansprechend gestaltete Suchmaske vermissen. Das Team aus Baloo und Milou will es jetzt besser machen.
  • Nepomuk Webminer in Version 0.6

    Der Entwickler Jörg Ehrichs hat seine KDE-Software Nepomuk Webminer, die im Internet nach Metadaten sucht, in Version 0.6 veröffentlicht.
  • Finden statt suchen
    Aufgabe: Finden Sie alle Dateien auf Ihrem Rechner, die Sie per Mailanhang von Ihrem Freund Max bekommen haben.
Kommentare
Und die Praxis heute?
Hans-Dieter Schulze, Freitag, 12. März 2010 18:42:12
Ein/Ausklappen

Schade, dass im Artikel nicht auf die derzeitigen Probleme eingegangen wird.
Ich nutze die aktuelle KDE-Version 4.4.1.
Die Volltextindizierung funktioniert bei vielen PDF-Dokumenten nicht.
Der Indexer läuft fast permanent mit hoher CPU- und Speicherlast.
Obwohl sich in den meisten Verzeichnissen nichts ändert, werden diese neu indiziert und die Anzahl der indizierten Dateien schwankt zwichen 31000, 0 und 31000 .

Es gibt also noch viel zu tun.


Bewertung: 166 Punkte bei 23 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 07/2015: Daten sichern

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 0 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Fernwartung oder wartung im haus
heide marie voigt, 29.06.2015 10:37, 2 Antworten
gerne hätte ich jemanden in Bremen nord, der mir weiter hilft - angebote bitte mit preis HMVoigt
Druckeranschluss DCP-195C
heide marie voigt, 29.06.2015 10:35, 1 Antworten
installiert ist linux ubuntu 15.04 offenbar auch der treiber für den Drucker DCP-195C. Die Konta...
keine arbeitsleiste beim einloggen
heide marie voigt, 27.06.2015 13:31, 0 Antworten
seit der neu-installierung von linux ubuntu 15.04 erscheint die arbeitsleiste rechts oben erst na...
raid platte an linux mint 17.1
andreas schug, 23.06.2015 19:44, 1 Antworten
folgende thematik NAS Iomega Storage Center wird auf einmal nicht mehr im netzwerk erkannt .....
SUSE 13.2 - Probleme mit kmail
kris kelvin, 03.06.2015 13:26, 2 Antworten
Hallo, nach dem Umstieg auf 13.1 hatte ich das Problem, daß kmail extrem langsam reagierte. Nun...