Aufmacher

Sherlock Holmes der Neuzeit

Vergleichstest Google Desktop vs. Beagle

01.09.2007 Seit einigen Wochen steht die lokale Suchmaschine Google Desktop auch für Linux zur Verfügung. Ob es gegen den Protagonisten Beagle bestehen kann, zeigt der Test.

Bislang führte Beagle [1] mehr oder weniger unangefochten das Regiment der lokalen Volltextsuchprogramme für Linux an. Google offeriert zwar mit seiner Desktopsuchmaschine Google Desktop [2] seit etwa drei Jahren ein ähnliches Projekt, bislang jedoch nur für Windows-Systeme. Im Juni dieses Jahres veröffentlichte Google nun die erste Beta-Release der nativen Portierung für Linux und schickt sich an, Beagle vom Thron zu stoßen.

Beide Applikationen indizieren Textdateien und Tabellen verschiedener Dateiformate im Volltext und ermöglichen damit die Suche nach Inhalten solcher Dateien. Als Testdistribution kam Ubuntu 7.04 auf einem Rechner mit einer 3 GHz CPU und 512 MByte Speicher zum Einsatz. Die Teilnehmer hatten die Aufgabe, ein 2 GByte großes Testverzeichnis zu indizieren, das 2.100 Dateien verschiedener Formate wie MP3, PNG, TAR, PDF oder TXT enthielt.

Google Desktop

Seit Juni dieses Jahres stellt Google die Beta-Release seiner lokale Suchmaschine für Linux als DEB- und RPM-Paket zum Download bereit. Der Crawler, der die Dateien auf der Festplatte indiziert, arbeitet nach einem ähnlichen Prinzip wie der des Online-Pendants: Er indiziert zu Beginn alle in den Einstellungen festgelegten Verzeichnisse und Unterverzeichnisse. Textdateien verschiedener Formate wie ODT oder PDF verschlagwortet die Suchmaschine zur Volltextsuche. Danach registriert das Programm Änderungen beinahe in Echtzeit und hält diese fest.

Da die Software nur im Leerlaufmodus des Rechners die Daten archiviert, treten bei der normalen Arbeit keine merklichen Leistungseinbußen auf. Zum Indizieren des Testverzeichnisses benötigt die Suchmaschine etwa etwa 20 Minuten.

Spyware Google?

Immer wieder tauchen Gerüchte auf, Googles Desktopsuchmaschine verschicke ungefragt Daten in das Internet – Grund genug, die Sache etwas näher zu beleuchten. Nach Angabe von Google handelt es sich bei den an einen zentralen Server versendeten Daten um eine eindeutige Anwendungsnummer, eine Versionsbezeichung sowie eine Nachricht über die erfolgreiche Installation. Liegt eine neue Version vor, lädt die Software diese automatisch herunter und installiert sie. Die Software bietet keine Möglichkeiten, dieses Verhalten manuell zu beeinflussen.

Beim ersten Start des Programms erscheint Hinweis-Popup mit der Frage, ob Sie die erweiterten Funktionen aktivieren oder deaktivieren möchten . Dieser äußerst missverständliche Hinweis (Abbildung 1) schaltet nicht etwa zusätzliche Features frei, sondern gibt der Software grünes Licht, um zusätzliche Daten an einen zentralen Server von Google zu versenden.

Abbildung 1

Abbildung 1: Das Freischalten der erweiterten Funktionen bietet danach nicht etwa mehr Features sondern gestattet der Software, statistische Informationen über das Internet zu versenden.

Nach Angaben der Privacy Policy [3] handelt es sich dabei ausschließlich um statistische Informationen wie Anzahl der Suchläufe und deren Geschwindigkeit. Personenbezogene Daten überträgt Google nach eigenen Angaben in keinem Fall.

Der Test mit dem Netzwerk-Sniffer ergab in der Tat keine besorgniserregenden Ergebnisse. Wie von Google behauptet enthielt die einzige Netzwerkverbindung zum Server http://desktop.l.google.com lediglich die Versionshinweise und Kennung:

GET /linuxstatus?af=0&brand=GGXD&version=Release_1.0.1.0060&as=gdl&rlz=1L1GGXD&id=c93f5ed6-11dc-2efb-d5b1-beb94b3b92ad HTTP/1.1
User-Agent: Mozilla/4.0 (compatible; GDLinux/1.0)
Host: desktop.google.com
Accept: */*

Andere Netzwerkaktivitäten waren während eines Testzeitraums von 14 Stunden nicht zu beobachten.

Google: Bedienung

Nach der Installation startet der Google Desktop einen Webserver, der sich nur über den lokalen Rechner erreichen lässt. Sofern auf dem PC darauf der Browser Firefox installiert ist, richtet die Software ein Addon für diesen ein, der zum einen das Indizieren des Browsercaches ermöglicht und zum anderen der Seite Google.de den zusätzlichen Link Desktop hinzufügt. Ein Klick darauf öffnet die lokale Suchseite, über die Sie unter Desktop-Einstellungen das Setup des Programms erreichen.

Zusätzlich richtet Google sowohl unter KDE als auch unter Gnome im Startmenü den Eintrag Google Desktop ein und fügt der Kontrollleiste einen Suchbutton hinzu. Ein Klick darauf öffnet das Schnellsuchfeld (Abbildung 2), ein zweimaliges Drücken von [Strg] führt zum gleichen Ergebnis.

Abbildung 2

Abbildung 2: Ein Doppelklick auf Googles Suchbutton öffnet das Schnellsuchfeld, das die Suche schon während der Eingabe startet.

Schon während der Eingabe in dieses Feld beginnt die Suche nach dem gewünschten Begriff, die Treffer zeigt die Software darunter an. Beim Klick auf den letzten Link ... Alle Ergebnisse im Browser anzeigen öffnet das Programm den Standardwebbrowser und zeigt dort die Treffer an,unterteilt nach verschiedenen Kategorien wie E-Mails, Medien oder Dateien (Abbildung 3). In der Grundeinstellung sortiert Google Desktop die Treffer absteigend nach Datum sortiert (neueste zuerst), erlaubt jedoch auch das das Umstellen auf die Trefferrelevanz. Der Link Aus Index entfernen blendet neben den Treffern eine Checkbox ein, mit der Sie unerwünschte Ergebnisse markieren, um sie aus dem lokalen Google-Suchindex zu entfernen.

Abbildung 3

Abbildung 3: Die Web-Oberfläche der lokalen Suchmaschine kategorisiert die Treffer nach verschiedenen Gruppen wie Medien und Dateien.

Google: Suchvarianten

Ähnlich wie die Online-Version bietet auch Google Desktop das Verfeinern der Suche durch bestimmte Schlüsselwörter. Mehrere eingegebene Suchbegriffe verknüpft die Software mit einem logischen UND. Alle Dateien, welche beide angegebenen Begriffe enthalten, zeigt die Suchmaschine damit an. Eine logische OR-Verknüpfung, welche die Suche nach dem einen oder anderen Begriff erlaubt, unterstützt die Software nicht. Zur Suche nach einem Begriff, der aus mehreren Wörtern besteht schließen Sie die Suchbegriffe in Anführungszeichen ein, beispielsweise "Verschiedene Suchbegriffe".

Um die Anzeige auf Dateien bestimmter Formate einzugrenzen stellt Google mit der Erweiterten Suche rechts neben der Eingabeleiste die passende grafische Oberfläche bereit. Zu Typengruppen wie Medien oder Dateien zusammengefasst, grenzen Sie die Suche darauf ein. Zum selben Ergebnis gelangen Sie mit der Eingabe des Schlüsselworts filetype:gefolgt vom Dateityp und dem Suchbegriff. Das Autovervollständigen und die Korrektur "meinten Sie: der Online-Variante fehlen dem Google Desktop allerdings. Die Suche nach Wortfragmenten mit einem Platzhalter (*) kennt die Software ebenfalls nicht.

Google: Textformate

Bei der Volltextindizierung von Dokumenten beschränkt sich Google Desktop bislang noch aufs Wesentlichste und unterstützt lediglich OpenOffice-Formate, TXT-Dateien sowie PDF- und PS-Dokumente. Die Unterstützung anderer Dokumentformate wie DOC oder RTF fehlt bislang. Das Einbinden so genannter Gadgets [4], die eine solche Unterstützung aktivieren könnten, unterstützt diese Version nicht. Wie von Googles Online-Suche gewohnt zeigt auch die lokale Suchmaschine umfangreiche Informationen zu den gefundenen Dokumenten. Neben der ausführliche Textvorschau fördert der Klick auf den Link im Cache gespeichert neben dem Treffer die vorgehaltene Version aus dem Index zu Tage. Wurde das Dokument verändert, hält Google Desktop mehrere Versionen vor und zeigt diese chronologisch geordnet an (Abbildung 4). Bei Webseiten aus dem Browsercache visualisiert sie die gespeicherten Webseiten zusätzlich als Thumbnail neben dem Eintrag an.

Abbildung 4

Abbildung 4: Google Desktop erkennt Änderungen an indizierten Dateien und puffert diese chronologisch.

Google: Multimediaformate

Google kennt die Musikformate OGG, MP3, MPC und FLAC. Zu diesen speichert die Suchmaschine alle wichtigen Informationen wie Länge, Größe, Kodierung, Anzahl der Kanäle und ID3-Tags des Stückes. Während sie die Meta-Informationen auch zur Suche indiziert, bleibt das Anzeigen beispielsweise von Titeln mit einer bestimmten Kodierung ohne Erfolg. Das Indizieren von Filmen im MPEG- oder WMV-Format unterstützt die Software bislang nicht. Zwar zeigt es die Dateien als solche an, jedoch ohne zusätzliche Informationen.

Indizierte Bilder stellt die Software als Thumbnails neben den Einträgen dar, ein Klick darauf öffnet das Bild im voreingestellten Betrachter. Zusätzlich liefert Google Desktop noch Informationen über die Dateigröße, die Auflösung und den Speicherort (Abbildung 5).

Abbildung 5

Abbildung 5: Neben dem Titel zeigt Google Desktop diverse Zusatzinformationen von gespeicherten Audiodateien – allerdings nur in der Browseransicht.

Google: Sonstiges

Besitzern eines Google-Mail-Kontos ermöglicht die Suchmaschine das Indizieren der E-Mails, selbst wenn die Nachrichten nur über die Weboberfläche von Google Mail abgerufen werden. Als lokales Mailprogrammen unterstützt die Software Mozilla Thunderbird. Gepackte Formate, etwa ZIP- oder TAR.GZ-Archive speichert Google Desktop zwar, ohne jedoch ihren Inhalt zu indizieren. Bemerkenswert ist die Geschwindigkeit, mit der Google Desktop sucht: Vom Abschicken der Anfrage bis zur Anzeige der Treffer vergeht selten mehr als eine Sekunde. Sehr gut gelöst hat Google die nahtlose Integration seiner Software sowohl in den KDE- als auch den Gnome-Desktop.

Google Desktop: Plus-Minus

+ Sehr schnell

+ Hält Textdateien auch in mehreren Versionen im Cache

+ Sehr gute KDE- und Gnome-Integration

+ Entfernen von Einträgen aus dem Suchindex

-- Unterstützt keine Platzhalter

-- Kein Indizieren komprimierter Dateien

-- Nicht quelloffen, proprietäre Lizenz

-- Übermittelt Daten an den Hersteller

Beagle

Beagle ist unter Linux nach wie vor das beliebteste Volltextsuchprogramm, nicht zuletzt wegen seiner unkomplizierten Bedienung und Zuverlässigkeit. Das Programm läuft nach der Installation als Daemon und registriert nach dem initialen Indizieren der Daten Veränderungen in Echtzeit. Da sich die Suchmaschine dazu des Kernelmoduls Inotify bedient, setzt dies jedoch ein Kernel ab 2.6.13 voraus. Wer Beagle beispielsweise auf einem Server ohne Zugriff auf die grafische Oberfläche betreiben möchte, dem bietet Peagle ([5], auf Heft-CD) ein auf PHP basierendes Frontend für den Webbrowser.

Bedienung

Nach der Installation erwartet Beagle einen Neustart, um den Daemon zu anzustoßen. Danach fängt das Programm direkt an, die in den Einstellungen festgelegten Verzeichnisse zu indizieren. In der Grundeinstellung nimmt sich der Daemon lediglich das Heimatverzeichnis des angemeldeten Benutzers vor.

Mit einem Klick auf das Lupensymbol in der Kontrollleiste oder den Hotkey [F12] öffnen Sie die Suchmaske. Zum Eingrenzen der Treffer bietet das Programm keinerlei zusätzliche Schaltflächen. Sobald Sie beim Eintippen des Suchbegriffes eine Pause von mindestens einer Sekunde machen, startet das Programm die Suche.

Arbeiten Sie hauptsächlich mit der Konsole, so offeriert Beagle auch dort seine Dienste. Mit der Eingabe von beagle-query Suchbegriff starten Sie die Suche. Anders als Google Desktop bietet Beagle keinerlei Möglichkeiten, den Cache neu aufzubauen oder einzelne Einträge daraus zu entfernen. Zwar zeigt Beagle an, dass er zur Zeit das Dateisystem indiziert, verweigert aber eine Information darüber, wie weit es damit ist.

Beagle: Suchvarianten

In der Regel genügt zur Suche die Eingabe des gewünschten Begriffes. Beagle zeigt dann die Ergebnisse nach nach Kategorien wie Medien oder Dateien sortiert an. Allerdings erfordert das Programm den exakten Suchbegriff, damit es fündig wird. Eine Abkürzung, etwa lin statt linux, reicht nicht aus. Als Alternative erlaubt Beagle auch die Suche mit Wildcards auch innerhalb von Suchbegriffen, beispielsweise l*nux. Zur Suche nach bestimmten Dateitypen kennt Beagle die Anweisung ext: gefolgt von der Dateiendung, beispielsweise mp3.

Generell sucht Beagle bei der Eingabe mehrerer Suchbegriffe mit einer logischen UND-Verknüpfung: Es zeigt also alle Dateien, in denen sämtliche gesuchten Begriffe vorkommen. Die Anweisung OR zwischen den Suchbegriffen erbringt dagegen nur Resultate, in denen entweder der eine oder der andere Begriff auftaucht (Abbildung 6). Um nach einer genauen Phrase zu suchen, erlaubt das Programm, mehrere Begriffe mit Anführungszeichen zu verbinden. Um Dokumente auszuschließen, in denen ein bestimmter Begriff vorkommt, setzen Sie ein Minuszeichen davor.

Abbildung 6

Abbildung 6: Beagle bietet diverse Anweisungen, um die Suche zu verfeinern.

Ein Beispiel: linux OR debian ext:txt -microsoft zeigt alle Textdateien, in denen Linux oder Debian, nicht aber Microsoft vorkommt. Groß- und Kleinschreibung in Suchbegriffen ignoriert das Programm.

Beagle: Textformate

Beagle unterstützt deutlich mehr Textformate als Google Desktop. Neben den üblichen Office-Formaten wie ODT, ODS und DOC indiziert das Programm auch PDF-und TXT-Dateien im Volltext. Eine Auflistung aller unterstützten Dateiformate finden Sie in der Tabelle "Bewertungsmatrix". Zeigt Beagle sowohl beim Suchen als auch den Formaten seine Stärke, treten bei der Visualisierung der Suchtreffer einige Mängel zutage. So zeigt das Programm neben Titel und Pfade die Treffer lediglich als Einzeiler an (Abbildung 7).

Abbildung 7

Abbildung 7: Bei der Anzeige der Treffer zeigt sich Beagle reichlich zugeknöpft: Eine Zeile muss reichen, um das Dokument zu identifizieren. Dafür indiziert das Programm auch Dokumente im RTF- und DOC-Format.

Ein Cache, wie ihn Google Desktop besitzt, fehlt Beagle. In PDF-Dateien zeigt es zusätzlich den Verfasser des Werkes an. Während ein Doppelklick auf den Eintrag das Dokument öffnet, erreichen Sie über die rechte Maustaste das Kontextmenü, über das Sie den beinhaltenden Ordner öffnen oder die Datei als Mail versenden. Der letzte Eintrag, In den Müll verschieben löscht nicht etwa den Eintrag aus dem Suchindex, sondern die Datei von der Festplatte. Eine Mehrfachauswahl der Treffer ist nicht möglich.

Beagle: Multimediaformate

Auch in dieser Disziplin lässt Beagle kaum ein Dateiformat aus. An Bildern indiziert das Programm unter anderem PNG, JPG, GIF und SVG. Als Musik erkennt es neben vielen anderen auch OGG, MP3, FLAC und APE. Videodateien im MPEG-Format stellt das Programm ebenso wie Bilder als Thumbnail in der Übersicht dar. Im unteren Detailfenster erscheinen wie bei Textdokumenten Zusatzinformationen über den Pfad sowie das Änderungsdatum. Im Vergleich zu Google Desktop erweist sich die Anzeige von MP3-Dateien allerdings als wenig informativ. Gerade einmal der Titel im ID3-Tag sowie das Änderungsdatum und den Pfad bietet Beagle an, Informationen zur Länge oder Kodierung fehlen.

Beagle: Sonstiges

In der Grundeinstellung erstellt das Programm einen dynamischen Suchindex, der den Bestand permanent abgleicht und nicht mehr vorhandene Daten sofort daraus löscht. Das Kommandozeilenprogramm beagle-build-index erlaubt allerdings auch das Erstellen eines statischen Suchindexes, der den Datenbestand unabhängig von den tatsächlich vorhandenen Dateien vorhält. Das erweist sich vor allem beim Indizieren von gemounteten Shares via NFS als großer Vorteil.

Einen weiteren Pluspunkt gegenüber Google Desktop erntet Beagle beim Indizieren gepackter Formate: Während Google lediglich die Namen der Pakete registriert, indiziert Beagle auch den Inhalt von Archiven im TAR-, ZIP-, GZ- und BZ2-Format (Abbildung 8).

Abbildung 8

Abbildung 8: Anders als Google Desktop indiziert Beagle auch den Inhalt komprimierter Dateien zur Volltextsuche.

Negativ fiel auf, dass Beagle ausschließlich Dateien indiziert, dessen Typ es kennt. So blieb im Test beispielsweise die Suche nach EXE-Dateien erfolglos.

Beagle: Plus-Minus

+ Suche in gepackten Dateien

+ Unterstützt viele Dateiformate

+ Komandozeilenunterstützung

+ Erlaubt Platzhalter in Suchbegriffen

+ Freie Software (MIT Licence)

-- Verhältnismäßig langsam

-- Zeigt nur eine Zeile des Dokumentes

-- Kein Cache von Dateien

Fazit

Während Beagle gegenüber dem Konkurrenten mit seiner Wildcardsuche und logischen OR-Verknüpfungen klare Vorteile für sich verbucht, hapert es bei der Darstellung der Ergebnisse. Hier punktet der Google Desktop praktisch auf der ganzen Linie, da er deutlich mehr Informationen zu beinahe allen Dateiformaten preisgibt. Auf der Haben-Seite von Beagle stehen hingegen eine wesentlich größere Anzahl unterstützter Dateiformate, darunter auch die Suche in gepackten Formaten wie TAR.GZ, die Google nicht kennt. Dafür kontert dieser mit einem (abschaltbaren) persistenten Cache, zeigt Dokumente auch als Vorschauversion im Browser an und erlaubt das selektive Löschen von Einträgen aus dem Suchindex.

Letztendlich hängt es von Ihren persönlichen Präferenzen ab, welchen von beiden Programmen Sie den Vorzug geben. Zwar zeigt der Test ganz klar, dass sich der Google Desktop in technischer Hinsicht nicht vor Beagle verstecken muss und ihm in einigen Belangen sogar deutlich überlegen ist. Die Software birgt jedoch das enorme Manko, proprietär lizenziert und nicht quelloffen zu sein und zudem ungefragt Daten inklusive einer eindeutigen Identifikationsnummer an den Hersteller zu übermitteln.

Bewertungsmatrix

  Google Desktop Beagle
  http://http://desktop.google.com/de/linux/ http://beagle-project.org
Unterstützte Dateiformate:
Textdokumente (Volltextsuche) ODT, TXT, HTML, PDF, PS ODT, ODS, ODP, DOC, SXW, SXC, SXI, RFT, PDF, HTML, PDF
Audiodateien   MP3, OGG, FLAC, APE, MPC, M4A, AAC, Tracker, Amiga Audio, WMA
Videodateien keine MPEG, ASF, WMV, MNG, MP4, Quicktime
Bilddateien JPG, PNG, GIF JPEG, PNG, BMP, TIFF, GIF, SVG
Komprimierungsformate keine ZIP, TAR, GZIP, BZIP2
E-Mail Gmail, Thunderbird Evolution, Thunderbird, Kmail
Webcache Firefox, Konqueror Opera, Firefox, Konqueror
Suchfunktionen:
Suche während der Eingabe ja (1) ja
Autovervollständigen nein nein
Wildcards und Joker nein ja
Logische UND-Verknüpfung ja (2) ja (2)
Logische OR-Verknüpfung nein ja
Suche nach Dateitypen ja (3) ja
Auschluss von Suchbegriffen (alle außer) ja ja
Schnellsuche über Shortcut ja ja
Sortieren nach Relevanz und Datum ja ja
Trefferanzeige:
Treffer nach Kategorie geordnet ja ja
Thumbnailanzeige von Bildern ja ja
Thumbnailanzeige von gecachten Webseiten ja nein
Anzeige ganzer Dokumente aus dem Cache ja nein
Mehrzeilige Vorschaufunktion ja nein
Information zu MP3-Dateien:
Suche in Metadaten wie ID3-Tags ja ja
Länge ja nein
Bitrate ja nein
Größe ja nein
Titel / Interpret ja ja
Pfad zur Datei ja ja
Erstelldatum ja ja
Sonstiges:
Einzelne indizierte Einträge löschen ja nein
Persistenter Cache ja ja (4)
Verzeichnis-White- und Blacklist ja ja
(1) Nur im Schnellsuchfenster, (2) Grundeinstellung, (3) Nur über das Webfrontend, (4) nur über Kommandozeile konfigurierbar
Tip a friend    Druckansicht beenden Bookmark and Share
Kommentare