Home / LinuxUser / 2007 / 04 / Nadel im Heuhaufen

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

War doch klar...
(229 Punkte bei 11 Stimmen)
Meinst Du: Patch CD Updates?
(179 Punkte bei 5 Stimmen)
One goes, one comes
(161 Punkte bei 4 Stimmen)
Speichern in der Cloud
(161 Punkte bei 4 Stimmen)
Re: Skype für 64-Bit-Prozessor u. Suse 12.1
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Nadel im Heuhaufen

Dateien finden mit Recoll

01.04.2007 Ob Brief ans Finanzamt oder Mail vom Onlinehändler – mit der Desktopsuchmaschine Recoll finden Sie wichtige Dateien mit wenigen Mausklicks.

Egal, ob es um den Brief ans Finanzamt aus dem letzten Jahr oder eine E-Mail mit der Bestätigung des letzten Einkaufs beim Onlineshop geht – selbst wer eisern seine Daten und Dokumente in einer wohlüberlegten Verzeichnisstruktur ordnet, vermisst irgendwann unweigerlich eine wichtige Datei – vorzugsweise, wenn es eilt.

Hier hilft der Griff zur Suchfunktion im Filemanager. Unglücklicherweise gleicht die aber nur die Dateinamen ab. Wer Glück hat, darf zusätzlich noch den Inhalt von Textdateien durchforsten. Da nützt es wenig, wenn man noch weiß, dass der in OpenOffice verfasste Brief an das Finanzamt den Dateinamen 12112005fa trägt. Nach quälend langer Festplattenaktivität fällt das Ergebnis recht trotzdem mager aus.

Abhilfe schafft Recoll [1], Ihre ganz persönliche Volltextsuchmaschine (nicht zu verwechseln mit der Datenbank Rekall). Sie sucht die eingetippten Begriffe nicht nur in so genannten externen Attributen, wie dem Dateinamen, sondern auch in den Dokumenten selbst. Genau wie andere Desktopsuchmaschinen – etwa Beagle [2] – baut Recoll auf einem Index auf. Den füllt es über ein großes Arsenal von Hilfswerkzeugen, die Dokumenteninhalte untersuchen. Als Index-Engine nutzt Recoll Xapian [3].

Installation

Benutzer der Distributionen Fedora Core 5, Mandriva 2005 bis 2007 sowie Anwender, die auf Suse 10.1 und Ubuntu 6.10 setzen, haben es einfach: Für sie stehen passende Archive auf der Recoll-Homepage bereit. Hier heißt es einfach herunterladen und mit dem jeweiligen Paketmanager einspielen. Anschließend taucht die Suchmaschine automatisch im Startmenü auf.

Bei Redaktionsschluss kamen Ubuntu-6.10-Anwender in den exklusiven Genuss einer neueren Recoll-Programmversion: Sie enthält gegenüber der Vorversion 1.7.5 ein paar Modifikationen für Debian-basierte Distributionen. Wer ein derartiges Linux-System betreibt, sollte folglich die neue Variante einsetzen.

Besitzer anderer Distributionen greifen zum Quellcodearchiv und erstellen selbst eine ausführbare Programmdatei. Stellen Sie vorab sicher, dass das Entwicklerpaket für die Qt-Bibliothek installiert ist. Bei einigen Distributionen liegt es bei, bei anderen gilt es, das entsprechende Paket nachzuinstallieren. Es trägt meist den Zusatz -devel oder -dev im Namen. Recoll verlangt hier mindestens die Version 3.3.5.

Anschließend laden Sie von der Website des Xapian-Projekts das Paket xapian-core herunter. Nun öffnen Sie ein Terminalfenster und entpacken das Archiv in ein Verzeichnis Ihrer Wahl. Schließlich wechseln Sie dorthin und führen als Benutzer root die folgenden Befehle aus:

./configure
make install
ldconfig

Nach diesen Vorbereitungen kommt die Suchmaschine selbst an die Reihe. Laden Sie das passende Archiv von der Recoll-Homepage [1] herunter und entpacken Sie es. Danach geht es per ./configure weiter. Es folgen noch ein make, um die Anwendung zu erstellen und ein make install, um sie fest im System zu verankern. Die Aufnahme in das Startmenü müssen Sie selbst vornehmen, ansonsten genügt auch ein recoll im Terminalfenster.

Unter der Oberfläche

Wer genauer hinsieht, erkennt, dass Recoll lediglich als Oberfläche für die kompakte Suchmaschine Xapian arbeitet. Letztere verwendet recht ausgeklügelte Verfahren zum Sammeln der Information. Die Bibliothek zeichnet sich für das Erstellen des Index verantwortlich. In einer Minidatenbank merkt sich Xapian, wo in welchem Dokument welches Wort auftritt.

Formatfrage

Standardmäßig unterstützt Recoll die Suche in Dateien der Typen Text, HTML, und OpenOffice sowie die Mailbox-Formate Maildir und Mbox. Für weitere Dateiformate, wie etwa Microsoft Word, benötigen Sie zusätzliche Hilfsprogramme. Dazu zählen beispielsweise:

  • PDF: Pdftotext (Teil des Xpdf-Pakets)
  • Postscript: Pstotext
  • Word: Antiword
  • Excel und Powerpoint: Catdoc
  • RTF: Unrtf
  • DVI: Dvips
  • DJVU: Djvulibre
  • MP3: Id3lib (Recoll wertet die ID3-Tags aus)

Mächtiger Index

Nach dem ersten Start bietet Recoll an, Ihr Heimatverzeichnis zu durchstöbern, die darin gefundenen Dateien zu untersuchen und die Eckdaten dazu in einem so genannten Index abzulegen (Abbildung 1). Dank dieser Informationen findet Recoll die gesuchten Dokumente schneller. Klicken Sie deshalb hier auf OK. Es erscheint nun das Hauptfenster, in dessen Statusleiste am unteren Rand Informationen über das Erstellen des Index erscheinen.

Abbildung 1: Nach dem ersten Programmstart legt Recoll zuallererst einen Index an.

Da sich die Suchmaschine vollständig auf diesen Index stützt, kommen Sie als Benutzer nicht umhin, ihn regelmäßig per File | Update Index auf den neuesten Stand zu bringen. Möchten Sie diesen Vorgang automatisieren, bleibt nur das Kommandozeilenprogramm recollindex übrig, das Sie in bestimmten Zeitabständen beispielsweise per Cron starten. Die meisten Distributionen bringen hierzu entsprechende Konfigurationsprogramme mit.

Desweiteren bläht sich der Index unter Umständen recht gewaltig auf. Normalerweise erreicht er noch einmal die Größe des eigenen Heimatverzeichnisses, wächst im Extremfall aber sogar darüber hinaus. Wie lange Recoll für das Erstellen des Index benötigt, hängt sowohl von der Datenmenge als auch von der Leistungsfähigkeit Ihres Computers ab.

15 GByte inspiziert das Werkzeug in ungefähr einer halben Stunde. Sobald Recoll ein Dokument einmal erfasst hat, liest es die Datei erst nach einer Änderung wieder ein – selbst, wenn Sie den Index manuell aktualisieren. Ein Dokument bleibt folglich bei einer Suche unberücksichtigt, wenn es wieder gelöscht, von Recoll noch nicht erfasst, oder in ein anderes Verzeichnis verschoben wurde.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

1572 Hits
Wertung: 36 Punkte (5 Stimmen)

Schlecht Gut

Infos zum Autor

Tim Schürmann

Tim Schürmann

Tim Schürmann ist Diplom-Informatiker und derzeit als freier Autor unterwegs. Mehr Informationen finden Sie auf seiner Homepage unter www.tim-schuermann.de.


Infos zur Publikation

Infos zur Publikation

title_2012_02

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Duden Korrektor unter 64-Bit
Duden Korrektor unter 64-Bit
Tim Schürmann, 06.02.2012 10:36, 0 Kommentare

Der Duden Korrektor bietet eine äußerst nützliche Rechtschreib- und Grammatikkorrektur für LibreOffice und bringt in der aktuellen Version 8 e...

Aktuelle Fragen

rndc reload zone - failed bad zone
Ludwig jun. B., 06.02.2012 16:08, 2 Antworten
Schönen guten Tag, ich habe folgendes Problem. Immer wenn ich folgendes Kommando ausführen bek...
Skype für 64-Bit-Prozessor u. Suse 12.1
Klaus Sigerist, 05.02.2012 11:39, 3 Antworten
Hallo Gemeinde! Ich bin nur ein einfacher Nutzer und habe Probleme mit der Installation von Skyp...
8! Anfängerfrage :) Wie finde ich in Ubuntu die Datenträger (Bild, Text)
samuel leusam, 04.02.2012 15:53, 2 Antworten
Ich habe neu Ubuntu. Wenn ich die SD Karte im Laptop einstecke, erkennt er sie und gibt ihr den N...
OpenSuse 12.1-Service Kit 01/12
Christoph-J. Walter, 28.01.2012 08:52, 2 Antworten
Hallo Gemeinde, ich habe 12.1 neu installiert. Alles in Ordnung! Nun möchte ich das Service Kit (...
Ubuntu 11.10 konfigurieren
Michael Hinz, 27.01.2012 17:52, 1 Antworten
Ubuntu läuft bei mir. Allerdings nur, wenn die Daten-CD eingelegt ist. Unabhängig von Bios-Einste...