Aufmacher

Nadel im Heuhaufen

Dateien finden mit Recoll

01.04.2007
Ob Brief ans Finanzamt oder Mail vom Onlinehändler – mit der Desktopsuchmaschine Recoll finden Sie wichtige Dateien mit wenigen Mausklicks.

Egal, ob es um den Brief ans Finanzamt aus dem letzten Jahr oder eine E-Mail mit der Bestätigung des letzten Einkaufs beim Onlineshop geht – selbst wer eisern seine Daten und Dokumente in einer wohlüberlegten Verzeichnisstruktur ordnet, vermisst irgendwann unweigerlich eine wichtige Datei – vorzugsweise, wenn es eilt.

Hier hilft der Griff zur Suchfunktion im Filemanager. Unglücklicherweise gleicht die aber nur die Dateinamen ab. Wer Glück hat, darf zusätzlich noch den Inhalt von Textdateien durchforsten. Da nützt es wenig, wenn man noch weiß, dass der in OpenOffice verfasste Brief an das Finanzamt den Dateinamen 12112005fa trägt. Nach quälend langer Festplattenaktivität fällt das Ergebnis recht trotzdem mager aus.

Abhilfe schafft Recoll [1], Ihre ganz persönliche Volltextsuchmaschine (nicht zu verwechseln mit der Datenbank Rekall). Sie sucht die eingetippten Begriffe nicht nur in so genannten externen Attributen, wie dem Dateinamen, sondern auch in den Dokumenten selbst. Genau wie andere Desktopsuchmaschinen – etwa Beagle [2] – baut Recoll auf einem Index auf. Den füllt es über ein großes Arsenal von Hilfswerkzeugen, die Dokumenteninhalte untersuchen. Als Index-Engine nutzt Recoll Xapian [3].

Installation

Benutzer der Distributionen Fedora Core 5, Mandriva 2005 bis 2007 sowie Anwender, die auf Suse 10.1 und Ubuntu 6.10 setzen, haben es einfach: Für sie stehen passende Archive auf der Recoll-Homepage bereit. Hier heißt es einfach herunterladen und mit dem jeweiligen Paketmanager einspielen. Anschließend taucht die Suchmaschine automatisch im Startmenü auf.

Bei Redaktionsschluss kamen Ubuntu-6.10-Anwender in den exklusiven Genuss einer neueren Recoll-Programmversion: Sie enthält gegenüber der Vorversion 1.7.5 ein paar Modifikationen für Debian-basierte Distributionen. Wer ein derartiges Linux-System betreibt, sollte folglich die neue Variante einsetzen.

Besitzer anderer Distributionen greifen zum Quellcodearchiv und erstellen selbst eine ausführbare Programmdatei. Stellen Sie vorab sicher, dass das Entwicklerpaket für die Qt-Bibliothek installiert ist. Bei einigen Distributionen liegt es bei, bei anderen gilt es, das entsprechende Paket nachzuinstallieren. Es trägt meist den Zusatz -devel oder -dev im Namen. Recoll verlangt hier mindestens die Version 3.3.5.

Anschließend laden Sie von der Website des Xapian-Projekts das Paket xapian-core herunter. Nun öffnen Sie ein Terminalfenster und entpacken das Archiv in ein Verzeichnis Ihrer Wahl. Schließlich wechseln Sie dorthin und führen als Benutzer root die folgenden Befehle aus:

./configure
make install
ldconfig

Nach diesen Vorbereitungen kommt die Suchmaschine selbst an die Reihe. Laden Sie das passende Archiv von der Recoll-Homepage [1] herunter und entpacken Sie es. Danach geht es per ./configure weiter. Es folgen noch ein make, um die Anwendung zu erstellen und ein make install, um sie fest im System zu verankern. Die Aufnahme in das Startmenü müssen Sie selbst vornehmen, ansonsten genügt auch ein recoll im Terminalfenster.

Unter der Oberfläche

Wer genauer hinsieht, erkennt, dass Recoll lediglich als Oberfläche für die kompakte Suchmaschine Xapian arbeitet. Letztere verwendet recht ausgeklügelte Verfahren zum Sammeln der Information. Die Bibliothek zeichnet sich für das Erstellen des Index verantwortlich. In einer Minidatenbank merkt sich Xapian, wo in welchem Dokument welches Wort auftritt.

Formatfrage

Standardmäßig unterstützt Recoll die Suche in Dateien der Typen Text, HTML, und OpenOffice sowie die Mailbox-Formate Maildir und Mbox. Für weitere Dateiformate, wie etwa Microsoft Word, benötigen Sie zusätzliche Hilfsprogramme. Dazu zählen beispielsweise:

  • PDF: Pdftotext (Teil des Xpdf-Pakets)
  • Postscript: Pstotext
  • Word: Antiword
  • Excel und Powerpoint: Catdoc
  • RTF: Unrtf
  • DVI: Dvips
  • DJVU: Djvulibre
  • MP3: Id3lib (Recoll wertet die ID3-Tags aus)

Mächtiger Index

Nach dem ersten Start bietet Recoll an, Ihr Heimatverzeichnis zu durchstöbern, die darin gefundenen Dateien zu untersuchen und die Eckdaten dazu in einem so genannten Index abzulegen (Abbildung 1). Dank dieser Informationen findet Recoll die gesuchten Dokumente schneller. Klicken Sie deshalb hier auf OK. Es erscheint nun das Hauptfenster, in dessen Statusleiste am unteren Rand Informationen über das Erstellen des Index erscheinen.

Abbildung 1: Nach dem ersten Programmstart legt Recoll zuallererst einen Index an.

Da sich die Suchmaschine vollständig auf diesen Index stützt, kommen Sie als Benutzer nicht umhin, ihn regelmäßig per File | Update Index auf den neuesten Stand zu bringen. Möchten Sie diesen Vorgang automatisieren, bleibt nur das Kommandozeilenprogramm recollindex übrig, das Sie in bestimmten Zeitabständen beispielsweise per Cron starten. Die meisten Distributionen bringen hierzu entsprechende Konfigurationsprogramme mit.

Desweiteren bläht sich der Index unter Umständen recht gewaltig auf. Normalerweise erreicht er noch einmal die Größe des eigenen Heimatverzeichnisses, wächst im Extremfall aber sogar darüber hinaus. Wie lange Recoll für das Erstellen des Index benötigt, hängt sowohl von der Datenmenge als auch von der Leistungsfähigkeit Ihres Computers ab.

15 GByte inspiziert das Werkzeug in ungefähr einer halben Stunde. Sobald Recoll ein Dokument einmal erfasst hat, liest es die Datei erst nach einer Änderung wieder ein – selbst, wenn Sie den Index manuell aktualisieren. Ein Dokument bleibt folglich bei einer Suche unberücksichtigt, wenn es wieder gelöscht, von Recoll noch nicht erfasst, oder in ein anderes Verzeichnis verschoben wurde.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Desktopsuche der feinen Art: Recoll 1.16
    Recoll bietet ein sehr einfach zu nutzendes Frontend für die Desktopsuche, ohne gleich alle erweiterten Funktionen vor dem Anwender zu verbergen.
  • Angetestet
  • Tausende Dateien und Ordner: den Überblick behalten
    Überquellende Papierstapel mit unsortierter Post erschweren die Suche nach einem wichtigen Dokument, und das gilt analog auch für digitale Dokumente auf dem Linux-PC. Wir präsentieren Lösungen für eine aufgeräumte Platte, auf der Sie schnell finden, was Sie suchen.
  • Neue Software
    Für eindrucksvolle Landschaftspanoramen ist der Blickwinkel der meisten Kameras einfach zu klein. Für einen weiten Horizont sorgen erst aus mehreren Einzelbildern zusammengesetzte Panoramafotos. In der Zeit vor der digitalen Bildbearbeitung gelangen solche Aufnahmen nur mit schweren Profistativen, denn beim geringsten Verdrehen oder Verrutschen der Kamera passten die Teilaufnahmen nicht mehr zusammen.Die Online-Enzyklopädie Wikipedia ist das meistkonsultierte Nachschlagewerk der Internetnutzer. Wer darin jedoch auf Reisen schmökern möchte, braucht eine mobile Internetverbindung. Im Ausland oder bei Tempo 200 im Intercity bleibt der Zugang zum populären Online-Wissensspeicher daher oft verwehrt. Abhilfe schafft der Offline-Wiki-Reader Kiwix. Er holt die Wikipedia-Seiten aus einer Archivdatei (im Zim-Format), in der die nationalen Wikipedia-Organisationen ihren Datenbestand in mehr oder weniger regelmäßigen Abständen veröffentlichen.Wer ein Musikprogramm sucht, das sowohl unter Linux, Mac OS als auch Windows läuft, findet in der Java-Software aTunes einen modernen Medienmanager, der es gestattet, viele Online-Datenquellen einzubinden.HTML-Seiten sind Textdateien, die sich mit jedem Texteditor bearbeiten lassen. Doch wie bei jeder Programmiersprache geht es mit einer speziell darauf zugeschnittene Arbeitsumgebung schneller und bequemer. Bluefish ist im Moment der einzige Linux-HTML-Editor, der mit Neuerungen aufwartet.Gekaufte DVDs beeindrucken mit aufwändig gestalteten Menüs samt hinterlegtem Sound- und Videoclips. Mit DVDStyler erstellen Sie solche professionell wirkenden Silberscheiben einfach selbst.Jüngere Leser werden es gar nicht mehr kennen – das heimelige Gefühl bei einer Diashow in der dunklen Jahreszeit. Doch auch im Zeitalter der Videoclips gibt es noch stillstehende Bilder, die es effektvoll zu präsentieren gilt. Das Tool ffDiaporama verwandelt sie in eindrucksvolle Multimedia-Shows.Die Schöpfer vieler Schachprogramme interessieren sich offenbar in erster Linie für ausgefeilte Rechenverfahren. Daher liegt ihre Software oft bloß in einer Kommandozeilenversion vor. Das KDE-Programm Knights bietet eine grafische Oberfläche für viele solcher Schach-Engines.Wer eine vor Wochen oder Monaten gespeicherte Datei sucht, muss oft genug eine Weile stöbern, bis er sie gefunden hat. Wer sich die nervige Sucherei sparen möchte, benutzt eine Desktopsuchmaschine wie Recoll.Mit VirtualBox simulieren Sie in einem Programmfenster einen vollständigen PC, auf dem sich Betriebssysteme und Anwendungen genauso installieren lassen, wie auf einem echten Computer. Die Software beherrscht Sound, USB und nutzt, wenn auch mit eingeschränkter Geschwindigkeit, die 3D-Unterstützung der Grafikkarte.
  • Paperwork im Kampf gegen wachsende Aktenberge
    Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro sollen Akten nur noch digital im Rechner vorliegen. Für die Verwaltung des papierlosen Büros wurde Paperwork entwickelt.
Kommentare

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 6 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...