Scribo natürlich

Das vom französischen Staat mitfinanziertes Forschungsprojekt NLP ("Natural Language Processing") befasst sich mit der Analyse der menschlichen Sprache, also der Frage, wie man Texten semantische Informationen entlocken kann. Die ersten Ergebnisse, die man bereits in KDEs Quellcode-Repositories findet, erweisen sich dabei als vielversprechend. So zeigt die Testapplikation Scribo-Shell [8], wie man Texte automatisch analysieren und aus den Ergebnissen eine Liste mit sinnvollen Schlagworten und Themen generieren kann.

Zur Textanalyse kommt dabei ein Algorithmus des DERI-Instituts zum Einsatz, eines in Irland ansässigen wissenschaftlichen Partners im Nepomuk- und NLP-Projekt. Einen weiteren Ansatz bietet die Nutzung von Webservices zur Textanalyse. Die ebenfalls in Scribo Shell demonstrierte Schnittstelle OpenCalais bindet dabei einen Webservice eine umfangreiche Datenbank der Nachrichtenagentur Reuters ein und kann so Texte anhand eines großen Datenpools auseinanderpflücken. Scribo beschränkt sich jedoch nicht nur auf Text, sondern hat auch Bilder im Visier.

Hoch hinaus

Natürlich sind nicht nur Dateien interessant, sondern auch Daten, die man online speichert. Hier kommt der Groupware-Cache Akonadi ins Spiel, der mit dem KDE-Addressbuch in Version 4.4 seinen Einstand in der KDE Software Compilation feiert. Die PIM-Entwickler arbeiten derzeit hart an der Umstellung weiter Komponenten aus dem Kontact-Paket. Mit dem Release 4.5 steht für diesen Sommer wie bereits erwähnt ein auf Akonadi basierendes KMail auf dem Programm.

Die PIM-Hacker setzen dabei in Akonadi auf die Fähigkeiten Nepomuks, das die Volltextsuche in E-Mails und Attachments übernimmt. Akonadi benutzt derzeit noch eine eigene MySQL-Datenbank, doch die PIM-Entwickler denken bereits darüber nach, als Speicher-Backend ebenfalls Virtuoso zu benutzen, was sich günstig auf den Speicherverbrauch auswirken würde. Das Personal Information Management könnte dabei ganz besonders von den semantischen Funktionen profitieren – Kontakte und Identitäten lassen sich zum Beispiel hervorragend in der NCO-Ontologie normalisieren.

Akonadi spielt dabei die Rolle des Datenknechts: Es importiert und synchronisiert über Plugins verschiedene Datenquellen. Im einfachsten Fall handelt es sich bei so einer Datenquelle etwa um eine Kontakt-Visitenkarte auf der lokalen Festplatte. Es gibt aber auch Datenquellen – sogenannte Agents – die IMAP- oder Groupware-Server einbinden. Eintreffende E-Mails lassen sich so direkt indizieren. Dies ermöglicht es dann auch, virtuelle Folder anzulegen: also quasi voreingestellte Suchanfragen, die sich wie eine E-Mail-Mappe verhalten. Beim Indizieren von E-Mails bietet sich zudem die Möglichkeit, den Text auch inhaltlich zu analysieren und eventuell automatisch zu verschlagworten, oder mit anderen Nepomuk-Ressource zu verlinken.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Xesam und Nepomuk fusionieren
    Sebastian Trüg erklärt die Konkurrenz zwischen den semantischen Frameworks Xesam und Nepomuk für beendet.
  • Daten mit Bedeutung
    In KDE 4 hält der semantische Desktop Einzug. Über die Nepomukdienste kann der Benutzer nun flott durch seine Dateien suchen. Der semantische Desktop hat jedoch weit mehr zu bieten, als nur die Desktopsuche.
  • Baloo: Dem semantischen Desktop ein Stück näher
    Die Desktopsuche unter KDE SC 4 verbrauchte bisher zu viele Ressourcen und ließ eine ansprechend gestaltete Suchmaske vermissen. Das Team aus Baloo und Milou will es jetzt besser machen.
  • Nepomuk Webminer in Version 0.6

    Der Entwickler Jörg Ehrichs hat seine KDE-Software Nepomuk Webminer, die im Internet nach Metadaten sucht, in Version 0.6 veröffentlicht.
  • Fehlersuche in Kontact, Akonadi und Nepomuk
    KDEs Groupware-Client Kontact glänzt zwar mit beeindruckender Funktionsvielfalt, produziert jedoch gelegentlich auch ärgerliche Fehler. Kein Problem – wenn Sie wissen, wo Sie hinlangen müssen.
Kommentare
Und die Praxis heute?
Hans-Dieter Schulze, Freitag, 12. März 2010 18:42:12
Ein/Ausklappen

Schade, dass im Artikel nicht auf die derzeitigen Probleme eingegangen wird.
Ich nutze die aktuelle KDE-Version 4.4.1.
Die Volltextindizierung funktioniert bei vielen PDF-Dokumenten nicht.
Der Indexer läuft fast permanent mit hoher CPU- und Speicherlast.
Obwohl sich in den meisten Verzeichnissen nichts ändert, werden diese neu indiziert und die Anzahl der indizierten Dateien schwankt zwichen 31000, 0 und 31000 .

Es gibt also noch viel zu tun.


Bewertung: 224 Punkte bei 56 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Infos zur Publikation

LU 09/2016: Ciao, Windows!

Digitale Ausgabe: Preis € 5,99
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

KWord Quiz
Carl Garbe, 30.08.2016 16:19, 0 Antworten
KWord Quiz lässt sich bei mir (nach einem update auf Ubuntu 16.04 LTS) nicht mehr speichern, kann...
NOKIA N900 einziges Linux-Smartphone? Kein Support mehr
Wimpy *, 28.08.2016 11:09, 1 Antworten
Ich habe seit vielen Jahren ein Nokia N900 mit Maemo-Linux. Es funktioniert einwandfrei, aber ich...
Scannen nicht möglich
Werner Hahn, 19.08.2016 22:33, 3 Antworten
Laptop DELL Latitude E6510 mit Ubuntu 16,04, Canon Pixma MG5450. Das Drucken funktioniert, Scann...
Wie kann man das berichtigen
Udo Muelle, 17.07.2016 20:39, 1 Antworten
Fehlschlag beim Holen von http://extra.linuxmint.com/dists/rosa/main/binary-i386/Packages Hash-S...
Installation Genimotion
Horst Müller, 15.07.2016 17:00, 1 Antworten
Hallo, ich kann Genimotion nicht installieren. Folgende Fehlermeldung habe ich beim Aufruf erh...