Aus LinuxUser 10/2014

Freie und kommerzielle Thesauri im Überblick

Die richtigen Zutaten

Gewandte Sprache verleiht einem Text den richtigen Schliff. Wer kommerzielle Thesauri meiden will, findet in der freien Software-Welt erstklassige Alternativen.

Sicher kennen Sie die Situation, in der Sie erst verzweifeln, und dann doch wieder Bauklötze staunen: Die Internetrecherche nach einem Läufer liefert zunächst unzählige Treffer. Darunter nicht nur berühmte Sportler, sondern auch kleine Teppiche und Schachfiguren sowie laufende Boten, die eine Nachricht überbringen.

Erst wenn Sie die Suche um weitere Begriffe ergänzen, schwenkt die Ausgabe oft in die gewünschte Richtung um. Die Basis dafür bildet eine Analyse der Sprache, die in den Auswerteprozess der Suchmaschine integriert ist. Solche erläutern die Zusammenhänge zwischen den Wörtern einer Sprache anhand verschiedener Kriterien; diese fließen in das Ergebnis der Suche ein.

Von außen betrachte, wirkt es daher so, dass der Computer besser verstünde, wonach Sie stöbern, und liefert Ihnen daraufhin exakte und vielfältige Treffer – und das selbst dann, wenn Sie sich bei der Schreibweise des Begriffes vertippt haben.

Obwohl die Benutzerschnittstelle, also die Eingabemaske, oft recht profan daherkommt, hat der Vorgang dahinter kaum noch etwas mit einer einfachen Stichwort- oder Schlagwortsuche gemeinsam [1]. Früher glückte eine Recherche in Dateien oder Dokumenten vorrangig anhand der richtig ausgewählten Suchbegriffe, deren korrekter Schreibweise und etwas Intuition.

In den letzten 20 Jahren entwickelte sich dieser Vorgang hingegen Schritt für Schritt zu einem ausgefeilten Prozess, in dem viele weitere Kriterien eine Rolle spielen. Betreiber von Suchmaschinen nutzen mehr als 50 davon, darunter die Sprache des Dokuments, dessen Format und Struktur, Fachbegriffe in den Metadaten sowie den Grad der Vernetzung, das heißt, wie oft ein Dokument etwa referenziert oder selbst Ziel eines Links ist.

Das Ergebnis basiert auf Begriffen, die thematisch zusammengehören. Neben einer großen Portion Statistik spielt dabei insbesondere das Wissen um die sprachlichen Zusammenhänge der einzelnen Worte eine große Rolle. Dies stammt aus linguistischen Thesauri (siehe Kasten „Im Überblick“).

Im Überblick

Der Begriff Thesaurus stammt vom altgriechischen „thesauros“ ab und bedeutet Schatz oder Schatzhaus. Das Analogon im Lateinischen ist das Wort „thesaurus“. Allgemein gesprochen, bezeichnet es eine nach bestimmten Kriterien geordnete Sammlung thematisch zusammenhängender Objekte, eine Art „Wissensspeicher“. Bezogen auf die Sprach- und Dokumentationswissenschaft war ein Thesaurus ein Wörterbuch und somit ein Sammelwerk mit dem gesamten Wortschatz einer Sprache.

In den 1950er-Jahren veränderte sich dieses hin zum spezialisierten Nachschlagewerk, das aus einem kontrollierten, begrenzten Vokabular und den Relationen der einzelnen Worte untereinander besteht. Grundlage für das Vokabular bilden inzwischen die Begriffe aus der Schlagwortnormdatei der Deutschen Nationalbibliothek [2] oder der Library of Congress Subject Headings (LCSH) [3]. Verwendet werden vorrangig Synonyme sowie Ober- und Unterbegriffe. Die Relationen zwischen den einzelnen Begriffen sind gemäß DIN 1463-1 beziehungsweise ISO 2788 genormt (siehe Tabelle „Relationen“) und als Assoziationen und Verweise bekannt.

Relationen

DIN 1463-1 ISO 2788
BF Benutzt für UF Used for
BS Benutze Synonym USE/SYN Use synonym
OB Oberbegriff BT Broader term
UB Unterbegriff NT Narrower term
VB Verwandter Begriff RT Related term
SB Spitzenbegriff TT Top term

Aktuelle Beispiele sind der Thesaurus Linguae Latinae (abgekürzt ThlL oder TLL) [4] für Latein, der Thesaurus Linguae Graecae (TLG) [5] für Griechisch, aber der UNESCO Thesaurus [6]. Letztgenannter ist eher ein Sammelwerk zu den Bereichen Bildung, Wissenschaft, Kultur, Sozial- und Humanwissenschaften, Information und Kommunikation, Politik, Recht und Wirtschaft. Alle Einträge stehen in Englisch, Französisch, Spanisch und Russisch bereit. Nützlich sind der Europäische Thesaurus Internationale Beziehungen und Länderkunde [7] sowie der Getty Thesaurus of Geographic Names (TGN) [8]. Dieser steht inzwischen als Open Data jedem Interessenten frei (Abbildung 1).

Abbildung 1: Detailliertes Suchergebnis und Hierarchie nach "Warnemünde" im TGN.
Abbildung 1: Detailliertes Suchergebnis und Hierarchie nach „Warnemünde“ im TGN.

Linguistische Thesauri sind in der angewandten Sprachwissenschaft mit den beiden Begriffen Wortnetz und Sprachschatz verankert. Deren Ziel besteht einerseits darin, unsichtbare (semantische) Verbindungen zwischen Worten unterschiedlicher Herkunft und deren Bedeutung (Relationen und Assoziationen) anzuzeigen, andererseits die Ähnlichkeit zwischen den einzelnen Begriffen zu verdeutlichen.

Zudem dienen Thesauri dem Erforschen der Sprachgeschichte und zum Bestimmen von Bedeutungen und deren Historie. Im Alltag als Wörterbuch für Synonyme bekannt, verhelfen sie als Nachschlagewerk zu einem eleganteren Ausdruck und sorgen im optimalen Fall für eine größere Gewandtheit in der Sprache.

In der IT kommen Thesauri neben dem Einsatz bei Suchmaschinen oft als Zugabe zur Textverarbeitung daher und bilden häufig die Basis zur Rechtschreibprüfung und verstärkt als Hilfe für korrekte Grammatik. Beispiele aus der Praxis sind unter anderem der KThesaurus [9] und der OpenThesaurus für LibreOffice [10].

Projekte und Werkzeuge

Einen Einstieg zur Recherche im deutschen Sprachraum bietet die Schweizer Webseite Lexikon.ch [11]. Dieses Angebot versteht sich als spezielle Suchmaschine für Lexika, Thesauri, Wörterbücher, Zitatesammlungen, Abkürzungsverzeichnisse und Reimlexika. Sie listet sowohl kommerzielle als auch freie Projekte auf.

Als reine Online-Angebote stehen unter anderem Woxicon [12], Leo [13] und Beolingus/Dict [14]. Woxicon und Leo bieten Ergänzungen für slawische, romanische und skandinavische Sprachen an; Beolingus/Dict konzentriert sich hingegen auf Englisch, Spanisch und Portugiesisch.

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDFUmfang: 7 HeftseitenPreis €0,99
(inkl. 19% MwSt.)
KAUFEN
LinuxUser 10/2014 KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS
Deutschland

Hinterlasse einen Kommentar

  E-Mail Benachrichtigung  
Benachrichtige mich zu: