AA_pigeons_djayo_sxc_925298.jpg

© Djayo, sxc.hu

Genau hingeschaut

Datei-Doubletten mit Dupeguru finden

15.11.2011
Drei Dateien mit gleichem Namen, vier Files mit gleichem Inhalt – das verwirrt und kostet Zeit und Nerven. Mit Dupeguru entsorgen Sie überflüssigen Ballast.

Doublettenfinder helfen, inhaltlich oder namentlich identische Dateien zu finden, die ihrer Natur nach wertvollen Platz verschwenden. Nicht immer steht uferlos viel Festplattenkapazität bereit, etwa bei Online-Festplatten, SD-Karten oder USB-Sticks, und insbesondere bei Musikdateien spielt auch heute noch jedes MByte eine Rolle. Doubletten in MP3-Playlisten, Webgalerien oder virtuellen Fotoalben bedeuten immerhin Mehrarbeit für Mediaplayer oder Bildverwaltung.

Dupeguru ist ein so genannter Doublettenfinder: Es sucht auf dem Rechner nach duplizierten Dateien und scannt dazu Dateinamen und Inhalte. Da der Scan einen unscharfen Matching-Algorithmus verwendet, findet das Tool selbst dann identische Dateien, wenn die Dateinamen nicht exakt übereinstimmen.

Installation

Dupeguru [1] steht als Python-Programm gleichermaßen für Linux, Mac OS X und Windows bereit. Aktuell ist die Version 3.2.1. Allerdings bietet der Hersteller für Linux ausschließlich DEB-Pakete für 32- und 64-Bit-Systeme an. Damit gelingt die Installation etwa über Ubuntus Software-Center im Handumdrehen.

Die Software setzt jedoch voraus, dass auf dem entsprechenden Rechner Python in einer Version ab 3.2 installiert ist. Das steht aber in den Repositories erst ab Ubuntu 11.04 "Natty Narwhal" im Paket python3 bereit. In Debian findet sich eine passende Version in Testing aka "Wheezy".

Selbstverständlich spricht nichts dagegen, das DEB-Paket bei jeder anderen auf Debian basierenden Distribution mit Synaptic oder via Kommandozeile zu installieren. Dupeguru starten Sie anschließend mit folgendem Befehl:

$ /usr/local/bin/dupuguru_se

Alternativ navigieren Sie mit Nautilus zum angegeben symbolischen Link und startet das mit /usr/local/share/dupeGuru_se/run.py verknüpfte Python-Skript per Doppelklick. Dabei gilt es lediglich im Nautilus-Kontextmenü die Option im Terminal ausführen zu aktivieren. Nach einer korrekten Installation über Ubuntus Software-Center oder mit Synaptic steht allerdings ein Dupeguru-Eintrag unter Anwendungen | Zubehör bereit.

Suchen und Finden

Das Programm zeigt beim Start einen Dialog, der auf den Fairware-Charakter der Software hinweist. Über Fortfahren gelangen Sie zur eigentlichen Oberfläche, während die Schaltflächen Mehr Infos, Registrieren und Spenden zur Fairware-Seite [2] des Herstellers Hardcoded Software führen, die Informationen zum Fairware-Gedanken liefert (siehe Kasten "Aussicht auf faire Bezahlung").

Aussicht auf faire Bezahlung

Dupeguru steht kostenlos zur Verfügung. Da es sich um ein Python-Programm handelt, haben Sie auch Einblick in die Quellen. Dupeguru darf also als Open-Source-Software gelten, konkret kommt die BSD-Lizenz zum Einsatz. Im Gegensatz zur Open-Source-Definition hat der Autor von Dupeguru für sich den Begriff Fairware (in Anlehnung an Free- und Shareware) kreiert und macht damit unter anderem auch nachvollziehbare Aussagen zu seiner Motivation: Die legt nämlich darin, Geld für seine Arbeit zu verdienen.

Dies mag indirekt bei vielen Open-Source-Entwicklern so sein, selbst wenn kommerzielle Aspekte bei freier Software nicht immer im Vordergrund stehen. Dupeguru weist aber bei jedem Programmstart im Rahmen des Fairware-Konzeptes deutlich darauf hin, dass der Autor Zeit und Ressourcen in die Software investiert hat und sich daher eine faire Bezahlung auf freiwilliger Basis wünscht. Autoren von freier Software gehen in der Regel in manchen Fällen einen ähnlichen Weg, setzen jedoch meist weniger auf den direkten Vertrieb der Software als vielmehr auf die Arbeit an einem kommerziellen Ableger eines Programms oder auf Dienstleistungen rund um das Projekt.

Was das Fairware-Konzept von Hardcoded Software sympathisch macht, ist die einzigartige Weise, wie der Entwickler seinen bisher geleisteten Aufwand unter auf der Website penibel protokolliert und sogenannte unbezahlte Stunden im grafischen Verlauf darstellt. Eng verknüpft mit diesem Mitführen des Aufwands ist die zugehörige Spenden-Seite [5]: Hier sehen Sie, wieviel Geld die Software bisher eingespielt hat und wie das Aufkommen der Spenden sortiert nach Ländern aussieht.

Wenn Sie spenden möchten, gelangen Sie aus dem Dialog beim Programmstart über die Schaltfläche Spenden oder wahlweise direkt über die Website [6] zu einem entsprechenden Formular. Nach der Spende, die derzeit einen Paypal-Account oder eine Kreditkarte voraus setzt, erhalten Sie eine Lizenznummer, mit der Sie das Popup beim Programmstart unterbinden. Gibt es keine unbezahlten Stunden mehr, verschwindet der Fairware-Dialog ebenfalls.

Die Oberfläche ist einfach gehalten und wirft kaum Fragen hinsichtlich des Bedienkonzepts auf. Mit einem Klick auf das Plus-Symbol fügen Sie ein beliebiges zu scannendes Verzeichnis hinzu, das Dupeguru dann mit einem Klick auf Scan nach doppelten Einträgen durchforstet.

Einzelne Ordner lassen sich vom Scan auszuschließen. Dazu markieren Sie im entfalteten Verzeichnisbaum das entsprechende Unterverzeichnis und klicken dann auf das Minus-Symbol. Das Verzeichnis erscheint dann in Rot (Abbildung 2).

Abbildung 2: Bei Bedarf schließen Sie einzelne Unterverzeichnisse vom Scan aus.

Die Einstellungen prüfen oder ändern Sie übrigens im Dialog Ansicht | Einstellungen. In der Voreinstellung ignoriert Dupeguru beispielsweise Dateien, die kleiner als 10 KByte sind. Außerdem variieren Sie an dieser Stelle bei Bedarf die Empfindlichkeit der Filter oder stellen die GUI auf die deutsche Lokalisierung um (Abbildung 3).

Abbildung 3: Die Einstellungen bieten unter anderem die Möglichkeit, die Oberfläche der Software einzudeutschen.

Dupeguru berücksichtigt auf Wunsch die gemischte Schreibweise eines Dateinamens oder ignoriert Hardlinks. Da der Vergleich des Inhalts je nach Größe des zu scannenden Verzeichnisses durchaus Zeit in Anspruch nimmt, lohnt es sich, in einem ersten Schritt in den Einstellungen den Scan nur auf Dateinamen zu beschränken. Dazu wechseln Sie im Listenfeld Scantyp von Inhalt auf Dateiname (Abbildung 4). Außerdem gibt es hier noch eine dritte Option Ordner.

Abbildung 4: Die Dauer eines Durchlaufs hängt primär von der Größe des zu scannenden Verzeichnisses, aber auch vom gewählten Typ des Scans ab.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 12/2014: ANONYM & SICHER

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...