Semantisches Tagging erleichtert das Dateimanagement

Aus LinuxUser 03/2020

Semantisches Tagging erleichtert das Dateimanagement

© Jane Rix, 123RF

Am Namen sollt Ihr sie erkennen

Wer seine Dateien nach festgelegten Kriterien benennt, der spart beim Suchen nach wichtigen Dokumenten oder Bildern Zeit und Nerven.

Wohl jeder Anwender hatte schon einmal das Problem, fein säuberlich auf dem eigenen Rechner abgelegte Daten nicht mehr finden zu können. Das Navigieren durch die zahllosen Verzeichnisse führt nicht zum Ziel, weil das Gesuchte möglicherweise an verschiedenen Stellen liegt und man sich deshalb in den Ordnerhierarchien verirrt.

Eine Volltextsuche verspricht da Abhilfe, erfordert aber meist zusätzliche Ressourcen – und das oft nicht zu knapp. Zudem geht trotz einer ausgefeilten Volltextsuche das gewünschte Dokument möglicherweise in der Fülle der Ergebnisse unter, wenn die Schlagworte zu weit gefasst sind.

Viele Untersuchungen belegen, dass mehr oder weniger alle Computeranwender diese Situation schon erlebt haben. Das liegt oft weder an mangelnder Erinnerungsfähigkeit oder fehlendem Computerwissen, sondern vielmehr am Design der modernen Umgebungen: sie erfordern es allzu oft, dass der Nutzer sich an den Computer anpasst statt der Rechner an die Situation.

Die Grundlagen des “modernen” Dateimanagements legten Entwickler Mitte des vorigen Jahrhunderts. Trotzdem folgen auch heutige Systeme weitgehend nach denselben Prämissen. Um das Verwalten von ein paar Dutzend oder bestenfalls ein paar Hundert Dateien zu erleichtern, entstand das Konzept von verschachtelten Verzeichnissen, die mit dem Aufkommen der Desktop-Metapher [1] dann “Folder” hießen. Der Begriff steht im Englischen für Mappe, Aktendeckel oder Ordner.

Auf der Ebene des Dateisystems lautet der Konzeptbegriff nach wie vor “Verzeichnis”, wohingegen sich “Ordner” als Konzept eher auf die Ebene der grafischen Oberflächen bezieht. Äquivalent dazu ist “Datei” ein Konzeptbegriff auf Dateisystemebene, während der Begriff “Dokument” vermehrt auf der Benutzeroberfläche zum Einsatz kommt.

Ständig steigende Zahlen an verlorenen Informationen in Kombination mit der massiv zunehmenden Anzahl von Dateien pro Benutzer verlangen nach einer grundlegend neuen Denkweise beim Verwalten von Dateien. Die Forschung im Umfeld des Personal Information Management hat seit drei Jahrzehnten sehr gute Verbesserungen mit entsprechenden Prototypen erzielt. Jedoch fanden davon so gut wie gar keine Erkenntnisse daraus Einfluss in die Computersysteme, wie wir sie heute benutzen (siehe Kasten “Nur in der Forschung”).

Nach wie vor wiegt Rückwärtskompatibilität schwerer als fortschrittliche Konzepte. Mangelhafte Schulbildung im Bereich PIM einerseits und fehlendes Problembewusstsein bei der Mehrheit der Benutzer andererseits verschlechtern die Situation darüber hinaus.

Forschungsergebnisse wie etwa jene aus dem Tagstore-Projekt [2] zeigen, dass selbst kleine, schrittweise Verbesserungen aktueller EDV-Umgebungen viel Potenzial bergen. Dieser Artikel beschreibt ein in der Praxis erprobtes Konzept, das aus den Erkenntnissen mit der Arbeit an Tagstore entstand und das Sie als interessierter Anwender sofort einsetzen könnten.

Es besteht aus einer Sammlung an freien Python-Skripten. Sie stellen in Kombination ein paar Methoden bereit, die bereits verfügbare Informationen ergänzen. Die vorgestellte Methode funktioniert selbst im Kleinen, auch wenn Sie lediglich Teile davon verwenden. Wir zeigen, wie die Teile zusammenwirken.

Nur in der Forschung

In den letzten Jahrzehnten hat sich beim Verwalten von Dateien mit Ausnahme der inzwischen etablierten lokalen Suchmaschinen kaum etwas Grundlegendes getan. Geht es um Daten auf dem eigenen Computer oder im lokalen Netzwerk, bevorzugen die Benutzer nach wie vor die Navigation im Dateimanager und verwenden nur sehr selten lokale Suchmaschinen.Im Gegensatz dazu hat sich die in den 1980ern entstandene Forschungsdisziplin Personal Information Management (PIM) in den letzten beiden Jahrzehnten hauptsächlich mit der Suche beschäftigt, weniger mit der Navigation.

Dabei gibt es enormen Bedarf an Forschung und an neuen Konzepten. Seit vielen Jahrzehnten weiß die Wissenschaft, dass das Verwalten von Dateien in strikten Hierarchien von Verzeichnissen Anwender unnötig einschränkt. Hinzu kommt ein massives Anwachsen an zu verwaltenden Dateien pro Benutzer. Das führt zu Frustration, verlorenen oder redundanten Informationen. Allein der Anteil von redundanten Daten beläuft sich bei Analysen im privaten als auch im Firmenumfeld im Bereich von 15 bis 50 Prozent am gemeinsam genutzten Speicher.

Zwar helfen technische Lösungen dabei, solche Redundanzen durch Deduplizierung abzubauen. Dadurch verbessert sich jedoch die Situation bei der Suche nach Informationen sowie bei sich daraus ergebenden Problemen durch abweichende Versionen keinesfalls. Täglich entsteht pro Person durch diese Suche ein unnötiger Zeitverlust, der sich nach Ansicht des Autors auf mindestens 15 bis 30 Minuten beläuft. Durch ein grundlegend neues Konzept der EDV ließe sich eventuell sogar ein Mehrfaches davon gewinnen, je nach Umfang und Weitblick. Der einzige vielversprechende Vorstoß in diese Richtung kam von Microsoft mit WinFS [17], fand jedoch keinen Einzug in die alltäglichen Arbeitsumgebungen.

Konventionen

Das Konzept entfaltet mittels einer Konvention für Dateinamen ein Maximum an Konsistenz. Dabei leitet in den meisten Fällen ein Datums- oder Zeitstempel im angepassten ISO-8601-Format [3] den Dateinamen ein. Das Anpassen des Zeitstempels ist notwendig, da Microsoft-Systeme den im Standard enthaltenen Doppelpunkt in Dateinamen nicht zulassen.

Die Frage, welcher Zeitpunkt in den Dateinamen einfließt, sollten Sie sich möglichst bereits am Anfang stellen. Der Autor verwendet zumeist einen, der mit dem Entstehen oder Publikation der Information im Zusammenhang steht. Als Fallback dient das Datum der Aufnahme ins System, meistens das Datum des Downloads oder des Digitalisierens [4].

Hinter dem optionalen Datums- oder Zeitstempel folgt der eigentliche Dateiname. Der möglichst aussagekräftige Titel muss lang genug sein, um die Datei eindeutig zu beschreiben, und kurz genug, um sich in einer Liste noch gut lesen zu lassen.

Dahinter folgt ein optionaler Teil, der aus einem Trenner und einer Reihe von Schlagworten (Tags) besteht (siehe Kasten “Tagging”). Der Trenner besteht im Beispiel aus einem Leerzeichen, zwei Minuszeichen und einem weiteren Leerzeichen. Zwischen den Tags sind Leerzeichen eingefügt; sie selbst bestehen im optimalen Fall nur aus Kleinbuchstaben und Ziffern. Ein Beispiel, das dieser Konvention folgt, sehen Sie in Listing 1.

Tagging

Das Verschlagworten von Dateien ist eine Wissenschaft für sich. Dieser Artikel berücksichtigt nicht die vielfältigen Implikationen, die sich ergeben, wenn sich mehrere Benutzer Dateien und Verzeichnisse teilen. Sowohl aus der persönlichen Praxis heraus als auch basierend auf den Erkenntnissen aus einigen wissenschaftlichen Arbeiten empfiehlt der Autor folgende Richtlinien:

  • Beschränken Sie sich auf ein vordefiniertes Set an Tags, oder, wie es in der Fachsprache heißt, ein kontrolliertes Vokabular (controlled vocabulary, CV). Dessen Umfang sollte so klein sein wie möglich. Ein CV von mehreren Hundert Einträgen sorgt für mehr Verwirrung als Hilfe.
  • Benötigen Sie sehr viele Tags pro Datei, ist eine Volltextsuche die bessere Wahl. Die verwendeten Tags sollen den eigentlichen Dateinamen nicht ergänzen, sondern erweitern ihn lediglich um generalisierte Konzepte. Schränken Sie die Anzahl der Tags ein, verhindern Sie so außerdem Probleme durch Synonyme und indirekt durch Homonyme.
  • Per Konvention sind die Tags im Plural definiert, um Probleme bei Fragen von Einzahl und Mehrzahl zu eliminieren – also manuals statt manual oder templates statt template. Verwenden Sie nur englische Begriffe, vereinfacht das unter Umständen die Suche (manuals versus Anleitungen).
  • Tags, die sich direkt aus dem Dateityp ergeben, wie etwa images und movies für Dateien mit den Endungen .jpeg und .avi, bringt keinen nennenswerten Mehrwert. In der Praxis hat sich beim Autor eine Ausnahme ergeben: Der Tag presentations leistet gute Dienste sowohl bei Dateien vom Typ LibreOffice Impress als auch bei entsprechenden Fotos, Filmen oder Audiodateien.

Es empfiehlt sich außerdem, auf das Auszeichnen von Versionen in Dateinamen zu verzichten, wie etwa Dokument v2.pdf. Stattdessen lohnt es sich, sprechende Tags wie Abschlussarbeit -- draft.pdf zu nutzen. Wer eine noch detailliertere Versionierung benötigt, für den lohnt sich ohnehin ein (lokales) Git-Repository.

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF
LinuxUser 03/2020 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben