AA_pigeons_djayo_sxc_925298.jpg

© Djayo, sxc.hu

Genau hingeschaut

Datei-Doubletten mit Dupeguru finden

15.11.2011
Drei Dateien mit gleichem Namen, vier Files mit gleichem Inhalt – das verwirrt und kostet Zeit und Nerven. Mit Dupeguru entsorgen Sie überflüssigen Ballast.

Doublettenfinder helfen, inhaltlich oder namentlich identische Dateien zu finden, die ihrer Natur nach wertvollen Platz verschwenden. Nicht immer steht uferlos viel Festplattenkapazität bereit, etwa bei Online-Festplatten, SD-Karten oder USB-Sticks, und insbesondere bei Musikdateien spielt auch heute noch jedes MByte eine Rolle. Doubletten in MP3-Playlisten, Webgalerien oder virtuellen Fotoalben bedeuten immerhin Mehrarbeit für Mediaplayer oder Bildverwaltung.

Dupeguru ist ein so genannter Doublettenfinder: Es sucht auf dem Rechner nach duplizierten Dateien und scannt dazu Dateinamen und Inhalte. Da der Scan einen unscharfen Matching-Algorithmus verwendet, findet das Tool selbst dann identische Dateien, wenn die Dateinamen nicht exakt übereinstimmen.

Installation

Dupeguru [1] steht als Python-Programm gleichermaßen für Linux, Mac OS X und Windows bereit. Aktuell ist die Version 3.2.1. Allerdings bietet der Hersteller für Linux ausschließlich DEB-Pakete für 32- und 64-Bit-Systeme an. Damit gelingt die Installation etwa über Ubuntus Software-Center im Handumdrehen.

Die Software setzt jedoch voraus, dass auf dem entsprechenden Rechner Python in einer Version ab 3.2 installiert ist. Das steht aber in den Repositories erst ab Ubuntu 11.04 "Natty Narwhal" im Paket python3 bereit. In Debian findet sich eine passende Version in Testing aka "Wheezy".

Selbstverständlich spricht nichts dagegen, das DEB-Paket bei jeder anderen auf Debian basierenden Distribution mit Synaptic oder via Kommandozeile zu installieren. Dupeguru starten Sie anschließend mit folgendem Befehl:

$ /usr/local/bin/dupuguru_se

Alternativ navigieren Sie mit Nautilus zum angegeben symbolischen Link und startet das mit /usr/local/share/dupeGuru_se/run.py verknüpfte Python-Skript per Doppelklick. Dabei gilt es lediglich im Nautilus-Kontextmenü die Option im Terminal ausführen zu aktivieren. Nach einer korrekten Installation über Ubuntus Software-Center oder mit Synaptic steht allerdings ein Dupeguru-Eintrag unter Anwendungen | Zubehör bereit.

Suchen und Finden

Das Programm zeigt beim Start einen Dialog, der auf den Fairware-Charakter der Software hinweist. Über Fortfahren gelangen Sie zur eigentlichen Oberfläche, während die Schaltflächen Mehr Infos, Registrieren und Spenden zur Fairware-Seite [2] des Herstellers Hardcoded Software führen, die Informationen zum Fairware-Gedanken liefert (siehe Kasten "Aussicht auf faire Bezahlung").

Aussicht auf faire Bezahlung

Dupeguru steht kostenlos zur Verfügung. Da es sich um ein Python-Programm handelt, haben Sie auch Einblick in die Quellen. Dupeguru darf also als Open-Source-Software gelten, konkret kommt die BSD-Lizenz zum Einsatz. Im Gegensatz zur Open-Source-Definition hat der Autor von Dupeguru für sich den Begriff Fairware (in Anlehnung an Free- und Shareware) kreiert und macht damit unter anderem auch nachvollziehbare Aussagen zu seiner Motivation: Die legt nämlich darin, Geld für seine Arbeit zu verdienen.

Dies mag indirekt bei vielen Open-Source-Entwicklern so sein, selbst wenn kommerzielle Aspekte bei freier Software nicht immer im Vordergrund stehen. Dupeguru weist aber bei jedem Programmstart im Rahmen des Fairware-Konzeptes deutlich darauf hin, dass der Autor Zeit und Ressourcen in die Software investiert hat und sich daher eine faire Bezahlung auf freiwilliger Basis wünscht. Autoren von freier Software gehen in der Regel in manchen Fällen einen ähnlichen Weg, setzen jedoch meist weniger auf den direkten Vertrieb der Software als vielmehr auf die Arbeit an einem kommerziellen Ableger eines Programms oder auf Dienstleistungen rund um das Projekt.

Was das Fairware-Konzept von Hardcoded Software sympathisch macht, ist die einzigartige Weise, wie der Entwickler seinen bisher geleisteten Aufwand unter auf der Website penibel protokolliert und sogenannte unbezahlte Stunden im grafischen Verlauf darstellt. Eng verknüpft mit diesem Mitführen des Aufwands ist die zugehörige Spenden-Seite [5]: Hier sehen Sie, wieviel Geld die Software bisher eingespielt hat und wie das Aufkommen der Spenden sortiert nach Ländern aussieht.

Wenn Sie spenden möchten, gelangen Sie aus dem Dialog beim Programmstart über die Schaltfläche Spenden oder wahlweise direkt über die Website [6] zu einem entsprechenden Formular. Nach der Spende, die derzeit einen Paypal-Account oder eine Kreditkarte voraus setzt, erhalten Sie eine Lizenznummer, mit der Sie das Popup beim Programmstart unterbinden. Gibt es keine unbezahlten Stunden mehr, verschwindet der Fairware-Dialog ebenfalls.

Die Oberfläche ist einfach gehalten und wirft kaum Fragen hinsichtlich des Bedienkonzepts auf. Mit einem Klick auf das Plus-Symbol fügen Sie ein beliebiges zu scannendes Verzeichnis hinzu, das Dupeguru dann mit einem Klick auf Scan nach doppelten Einträgen durchforstet.

Einzelne Ordner lassen sich vom Scan auszuschließen. Dazu markieren Sie im entfalteten Verzeichnisbaum das entsprechende Unterverzeichnis und klicken dann auf das Minus-Symbol. Das Verzeichnis erscheint dann in Rot (Abbildung 2).

Abbildung 2: Bei Bedarf schließen Sie einzelne Unterverzeichnisse vom Scan aus.

Die Einstellungen prüfen oder ändern Sie übrigens im Dialog Ansicht | Einstellungen. In der Voreinstellung ignoriert Dupeguru beispielsweise Dateien, die kleiner als 10 KByte sind. Außerdem variieren Sie an dieser Stelle bei Bedarf die Empfindlichkeit der Filter oder stellen die GUI auf die deutsche Lokalisierung um (Abbildung 3).

Abbildung 3: Die Einstellungen bieten unter anderem die Möglichkeit, die Oberfläche der Software einzudeutschen.

Dupeguru berücksichtigt auf Wunsch die gemischte Schreibweise eines Dateinamens oder ignoriert Hardlinks. Da der Vergleich des Inhalts je nach Größe des zu scannenden Verzeichnisses durchaus Zeit in Anspruch nimmt, lohnt es sich, in einem ersten Schritt in den Einstellungen den Scan nur auf Dateinamen zu beschränken. Dazu wechseln Sie im Listenfeld Scantyp von Inhalt auf Dateiname (Abbildung 4). Außerdem gibt es hier noch eine dritte Option Ordner.

Abbildung 4: Die Dauer eines Durchlaufs hängt primär von der Größe des zu scannenden Verzeichnisses, aber auch vom gewählten Typ des Scans ab.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

title_2014_10

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...
o2 surfstick software für ubuntu?
daniel soltek, 15.07.2014 18:27, 1 Antworten
hallo zusammen, habe mir einen o2 surfstick huawei bestellt und gerade festgestellt, das der nic...