Home / LinuxUser / 2010 / 12 / Dokumente indizieren und wiederfinden mit Docfetcher

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(179 Punkte bei 5 Stimmen)
Mandriva in Nöten
(161 Punkte bei 4 Stimmen)
Mageia 2 ist fertig
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.
AA_fetch_clicknow_sxc_678952.jpg

© Clicknow, sxc.hu

Schnell gefunden

Dokumente indizieren und wiederfinden mit Docfetcher

04.11.2010 Indizierte Suchprogramme helfen bei großen Datenbeständen. Docfetcher erleichtert die Suche nach bestimmten Dateien.

Mit den Jahren wächst nicht nur die Lebenserfahrung, auch auf den Datenträgern sammeln sich im Laufe der Jahre etliche Dokumente an. Mit den herkömmlichen Mitteln der Ordnerstruktur und trotz sinnvoller Namen für Dateien findet sich hier nicht mehr allzu leicht und schnell etwas wieder. Einen Ausweg aus dieser Misere bieten Desktopsuchmaschinen: Sie ermöglichen es, den gesamten Datenbestand nach enthaltenen Begriffen zu durchsuchen.

Neben den unter Linux schon bekannten Vertretern dieser Zunft – Beagle, Tracker und Strigi – sowie der Google-Alternative Google Desktop mit Draht nach Mountain View existiert mit Docfetcher (http://docfetcher.sourceforge.net) eine weitere Alternative, die sogar von einem USB-Stick läuft.

Das Programm beherrscht die Suche in vielen Dateiformaten, darunter einfachen Textdateien, HTML, XML und SVG, PDF, verschiedenen Microsoft-Office-Formate (Word, Excel, Powerpoint), OpenOffice-Dokumenten (Calc, Draw und Impress) sowie RTF, Abiword und Microsoft Visio. Damit verfolgt es einen etwas anderen Ansatz als Catfish (siehe Artikel in dieser Ausgabe), das verschiedene Backends unter einem Dach vereint.

Nach dem Setup (siehe Kasten "Installation") starten Sie die Applikation über den entsprechenden Eintrag im Startmenü oder über den Befehl docfetcher in einer Konsole. Das Programmfenster besteht aus vier übersichtlichen Bereichen, wobei Sie primär den Suchbereich nutzen.

Installation

Docfetcher benötigt das Java Runtime Environment (JRE) ab Version 1.6.0. Sie können in einer Konsole den Befehl java -version eingeben, um die installierte Java-Version zu prüfen. Auf der Docfetcher-Homepage finden Sie ein Paket für Debian-basierte Distributionen, das Sie einfach über die jeweilige Funktion des Paketmanagements einspielen.

Sollten Sie eine Distribution mit einem anderen Paketierungssystem verwenden, nutzen Sie die portable Version, die als Zip-Archiv vorliegt. Laden Sie diese herunter und entpacken Sie sie in ein Verzeichnis Ihrer Wahl.

Bevor Sie eine Suche starten, gilt es zunächst einen Index zu erstellen. Hinter diesem Index verbirgt sich – wie bei einem Buch – ein Stichwortverzeichnis für Docfetcher. Für die schnelle Suche in Dokumenten durchstöbert die Software den Index nach den gewählten Suchbegriffen und zeigt bei Treffern das entsprechende Ergebnis an.

Das Indexmenü erreichen Sie über einen Klick mit der rechten Maustaste auf Suchbereich oder den Menüeintrag Index erstellen. Alternativ drücken Sie [Einfg]. Im ersten Schritt wählen Sie einen Ordner aus, den Sie indizieren wollen. Berücksichten Sie bei der Auswahl des zu indizierenden Ordners, dass das Erstellen des Index unso länger dauert, je größer die Anzahl der Dateien in diesem Ordner ausfällt. Während generische Desktopsuchmaschinen, wie Tracker unter Gnome, das Indizieren im Hintergrund erledigen, steht Docfetcher für die Dauer des Indexlaufs nicht zur Suche bereit.

Haben Sie sich für einen Ordner entschieden, öffnet sich für diesen der Dialog Indexverwaltung (Abbildung 1), den Sie in der Regel direkt mit Start bestätigen. Docfetcher visualisiert nun das Auslesen der Informationen aus den Dokumenten im ausgewählten Ordner und den gegebenenfalls dort enthaltenen Unterordnern.

Abbildung 1: Über den Dialog Indexverwaltung stoßen Sie den Aufbau eines Index für einen Dateiordner an.

Dokumente finden

Falls Sie keine weiteren Indizes anlegen möchten, können Sie nun mit der Suche starten. Geben Sie dazu in das Eingabefeld den oder die gewünschten Begriffe ein. Docfetcher sucht dann nach Dokumenten, die einen der beiden Begriffe beinhalten. Um Dokumente zu finden, die beide Begriffe beinhalten, verknüpfen Sie die Suchbegriffe mit einem logischen AND, zum Beispiel rechnung AND 2010. Möchten Sie eine bestimmte Wortfolge suchen, setzen Sie diese in Anführungszeichen, zum Beispiel "Chancen nutzen".

Zusätzlich haben Sie die Möglichkeit, Begriffe auszuschließen oder mit Platzhaltern zu suchen. Um einen Begriff auszuschließen, setzen Sie einfach ein Minuszeichen davor: Haus -bauen. Für die Suche mit Platzhaltern stehen das Fragezeichen und der Stern (Asterisk) bereit. Mit dem Fragenzeichen ersetzen Sie bei der Suche in Begriffen ein unbekanntes Zeichen. So erlaubt der Begriff bal? zum Beispiel die Suche nach "bald" oder "ball". Das Sternsymbol ersetzt dagegen mehrere unbekannte Zeichen: Haus* sucht nach allen Begriffen, die mit der Zeichenkette Haus beginnen.

Mit [Eingabe] starten Sie die Suchabfrage. Docfetcher zeigt daraufhin die Ergebnisse im entsprechenden Bereich an. Das Programm erlaubt es, diese zusätzlich zum Optimieren auch noch zu filtern. Auf der linken Fensterseite finden Sie alle Dateitypen, für die ein Suchfilter aktiv ist. Um zum Beispiel alle Word-Dokumente auszublenden, entfernen Sie das Häkchen bei MS Word (doc) und MS Word 2007 (docx, docm).

Der Filter wirkt sich unmittelbar auf das Ergebnis aus. Das gleiche gilt auch für mehrere Indizes: Sobald Sie das Kontrollkästchen vor einem Indexeintrag deaktivieren, blendet die Software alle Suchergebnisse aus diesem Index unverzüglich aus. Bei Bedarf grenzen Sie zusätzlich die Suche hinsichtlich der Dateigröße ein, indem Sie über die entsprechenden Felder unter Minimale / Maximale Dateigröße oben links (Abbildung 2) Dateien ausschließen. Befinden sich zum Beispiel viele kleine Textdateien oder riesige PDF-Dokumente für den professionellen Druck in einem Ordner, sparen Sie diese schon im Vorfeld aus.

Abbildung 2: Das Interface von Docfetcher zeigt auf einen Blick Filter, Indizes und Ergebnis an.

Vorschau und Anzeige

Damit Sie nicht gleich jedes PDF- oder Office-Dokument in dem von Ihnen installierten Betrachter laden müssen, präsentiert Docfetcher für Dateien aus dem Suchergebnis auf Mausklick eine Vorschau. Dabei handelt es sich allerdings um eine reine Textanzeige, sie sehen den Inhalt also ohne jegliche Formatierung und ohne Grafiken. Sicher fällt diese Art der Darstellung auf dem ersten Blick ein wenig gewöhnungsbedürftig aus, dafür geht sie sparsam mit den Systemressourcen um.

Nach dem Öffnen einer Datei per Doppelklick minimiert sich Docfetcher. Über ein entsprechendes Symbol in der Systemleiste rufen Sie es im Anschluss bei Bedarf wieder auf. Um ohne Umschweife schnell auf Docfetcher zuzugreifen, können Sie das Tool auch über die Tastenkombination [Strg]+[F8] direkt ansteuern.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

2283 Hits
Wertung: 69 Punkte (1 Stimme)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 06/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...