Freie und kommerzielle Thesauri im Überblick

Die richtigen Zutaten

Gewandte Sprache verleiht einem Text den richtigen Schliff. Wer kommerzielle Thesauri meiden will, findet in der freien Software-Welt erstklassige Alternativen.

Sicher kennen Sie die Situation, in der Sie erst verzweifeln, und dann doch wieder Bauklötze staunen: Die Internetrecherche nach einem Läufer liefert zunächst unzählige Treffer. Darunter nicht nur berühmte Sportler, sondern auch kleine Teppiche und Schachfiguren sowie laufende Boten, die eine Nachricht überbringen.

Erst wenn Sie die Suche um weitere Begriffe ergänzen, schwenkt die Ausgabe oft in die gewünschte Richtung um. Die Basis dafür bildet eine Analyse der Sprache, die in den Auswerteprozess der Suchmaschine integriert ist. Solche erläutern die Zusammenhänge zwischen den Wörtern einer Sprache anhand verschiedener Kriterien; diese fließen in das Ergebnis der Suche ein.

Von außen betrachte, wirkt es daher so, dass der Computer besser verstünde, wonach Sie stöbern, und liefert Ihnen daraufhin exakte und vielfältige Treffer – und das selbst dann, wenn Sie sich bei der Schreibweise des Begriffes vertippt haben.

Obwohl die Benutzerschnittstelle, also die Eingabemaske, oft recht profan daherkommt, hat der Vorgang dahinter kaum noch etwas mit einer einfachen Stichwort- oder Schlagwortsuche gemeinsam [1]. Früher glückte eine Recherche in Dateien oder Dokumenten vorrangig anhand der richtig ausgewählten Suchbegriffe, deren korrekter Schreibweise und etwas Intuition.

In den letzten 20 Jahren entwickelte sich dieser Vorgang hingegen Schritt für Schritt zu einem ausgefeilten Prozess, in dem viele weitere Kriterien eine Rolle spielen. Betreiber von Suchmaschinen nutzen mehr als 50 davon, darunter die Sprache des Dokuments, dessen Format und Struktur, Fachbegriffe in den Metadaten sowie den Grad der Vernetzung, das heißt, wie oft ein Dokument etwa referenziert oder selbst Ziel eines Links ist.

Das Ergebnis basiert auf Begriffen, die thematisch zusammengehören. Neben einer großen Portion Statistik spielt dabei insbesondere das Wissen um die sprachlichen Zusammenhänge der einzelnen Worte eine große Rolle. Dies stammt aus linguistischen Thesauri (siehe Kasten "Im Überblick").

Im Überblick

Der Begriff Thesaurus stammt vom altgriechischen "thesauros" ab und bedeutet Schatz oder Schatzhaus. Das Analogon im Lateinischen ist das Wort "thesaurus". Allgemein gesprochen, bezeichnet es eine nach bestimmten Kriterien geordnete Sammlung thematisch zusammenhängender Objekte, eine Art "Wissensspeicher". Bezogen auf die Sprach- und Dokumentationswissenschaft war ein Thesaurus ein Wörterbuch und somit ein Sammelwerk mit dem gesamten Wortschatz einer Sprache.

In den 1950er-Jahren veränderte sich dieses hin zum spezialisierten Nachschlagewerk, das aus einem kontrollierten, begrenzten Vokabular und den Relationen der einzelnen Worte untereinander besteht. Grundlage für das Vokabular bilden inzwischen die Begriffe aus der Schlagwortnormdatei der Deutschen Nationalbibliothek [2] oder der Library of Congress Subject Headings (LCSH) [3]. Verwendet werden vorrangig Synonyme sowie Ober- und Unterbegriffe. Die Relationen zwischen den einzelnen Begriffen sind gemäß DIN 1463-1 beziehungsweise ISO 2788 genormt (siehe Tabelle "Relationen") und als Assoziationen und Verweise bekannt.

Relationen

DIN 1463-1 ISO 2788
BF Benutzt für UF Used for
BS Benutze Synonym USE/SYN Use synonym
OB Oberbegriff BT Broader term
UB Unterbegriff NT Narrower term
VB Verwandter Begriff RT Related term
SB Spitzenbegriff TT Top term

Aktuelle Beispiele sind der Thesaurus Linguae Latinae (abgekürzt ThlL oder TLL) [4] für Latein, der Thesaurus Linguae Graecae (TLG) [5] für Griechisch, aber der UNESCO Thesaurus [6]. Letztgenannter ist eher ein Sammelwerk zu den Bereichen Bildung, Wissenschaft, Kultur, Sozial- und Humanwissenschaften, Information und Kommunikation, Politik, Recht und Wirtschaft. Alle Einträge stehen in Englisch, Französisch, Spanisch und Russisch bereit. Nützlich sind der Europäische Thesaurus Internationale Beziehungen und Länderkunde [7] sowie der Getty Thesaurus of Geographic Names (TGN) [8]. Dieser steht inzwischen als Open Data jedem Interessenten frei (Abbildung 1).

Abbildung 1: Detailliertes Suchergebnis und Hierarchie nach "Warnemünde" im TGN.

Linguistische Thesauri sind in der angewandten Sprachwissenschaft mit den beiden Begriffen Wortnetz und Sprachschatz verankert. Deren Ziel besteht einerseits darin, unsichtbare (semantische) Verbindungen zwischen Worten unterschiedlicher Herkunft und deren Bedeutung (Relationen und Assoziationen) anzuzeigen, andererseits die Ähnlichkeit zwischen den einzelnen Begriffen zu verdeutlichen.

Zudem dienen Thesauri dem Erforschen der Sprachgeschichte und zum Bestimmen von Bedeutungen und deren Historie. Im Alltag als Wörterbuch für Synonyme bekannt, verhelfen sie als Nachschlagewerk zu einem eleganteren Ausdruck und sorgen im optimalen Fall für eine größere Gewandtheit in der Sprache.

In der IT kommen Thesauri neben dem Einsatz bei Suchmaschinen oft als Zugabe zur Textverarbeitung daher und bilden häufig die Basis zur Rechtschreibprüfung und verstärkt als Hilfe für korrekte Grammatik. Beispiele aus der Praxis sind unter anderem der KThesaurus [9] und der OpenThesaurus für LibreOffice [10].

Projekte und Werkzeuge

Einen Einstieg zur Recherche im deutschen Sprachraum bietet die Schweizer Webseite Lexikon.ch [11]. Dieses Angebot versteht sich als spezielle Suchmaschine für Lexika, Thesauri, Wörterbücher, Zitatesammlungen, Abkürzungsverzeichnisse und Reimlexika. Sie listet sowohl kommerzielle als auch freie Projekte auf.

Als reine Online-Angebote stehen unter anderem Woxicon [12], Leo [13] und Beolingus/Dict [14]. Woxicon und Leo bieten Ergänzungen für slawische, romanische und skandinavische Sprachen an; Beolingus/Dict konzentriert sich hingegen auf Englisch, Spanisch und Portugiesisch.

Leo und Beolingus/Dict haben ihren Ursprung in der Wissenschaft – TU München und TU Chemnitz – und kooperieren für die Angabe der Thesauri unter anderem mit dem Centre National de Ressources Textuelles et Lexicales (CNRTL) [15] in Nancy (Lothringen) sowie den Projekten OpenThesaurus [16] und WordNet [17].

Kommerzielle Thesauri als Nachschlagewerk lagen traditionell in Buchform vor, so zum Beispiel als Bestandteil der Standardausgabe des Dudens, des Oxford English Dictionary oder des Dictionaire Robert. Die meisten Verlage integrieren ihren Thesaurus inzwischen aber mittlerweile direkt in ihr Online-Angebot und ermöglichen den Zugriff über den Webbrowser oder bieten alternativ eine passende App dafür an. Allerdings richten sich diese Angebote eher an Gelegenheitsnutzer mit 5000 bis 10 000 Abfragen pro Tag und Benutzer.

Für den unbegrenzten Einsatz sowie die Integration in eine eigene Applikation stellen die Verlage eine Schnittstelle (API) bereit. Die Arbeit mit dieser setzt voraus, dass Sie sich registrieren und einen API-Key erwerben. Diesen Key übermitteln Sie bei jedem Aufruf.

Macmillan Dictionary [18], Merriam-Webster [19] und Cambridge Dictionaries Online [20] geben die Ergebnisse als XML-Daten oder Javascript Object Notation (JSON) zurück und orientieren sich damit an den derzeit gängigen Standards im Web. Listing 1 zeigt eine Anfrage bei Merriam-Webster, Listing 2 die passende Antwort.

Listing 1

http://www.dictionaryapi.com/api/v1/references/thesaurus/xml/umpire?key=API-Key

Listing 2

<entry id="umpire">
 <term>
  <hw>umpire</hw>
 </term>
 <fl>noun</fl>
 <sens>
  <mc>a person who impartially decides or resolves a dispute or controversy</mc>
  <vi>usually acts as <it>umpire</it> in the all-too-frequent squabbles between
  the two other roommates</vi>
  <syn>adjudicator, arbiter, arbitrator, referee, umpire</syn>
  <rel>jurist, justice, magistrate; intermediary, intermediate, mediator,
  mediatrix, moderator, negotiator; conciliator, go-between, peacemaker,
  reconciler, troubleshooter; decider</rel>
 </sens>
</entry>

Pons, der Verlag für Wörterbücher, bietet die Anbindung an die hauseigene Datenbank als eigenständigen Service an [21], Mitbewerber Langenscheidt fokussiert auf das Angebot in Form von Büchern und spezifischen Apps für die unterschiedlichen mobilen Geräte.

Um sich die Facetten einzelner Worte als Graphen anzuschauen, bietet sich Visual Thesaurus [22] an. Dieser zeigt die Verbindungen zwischen den Worten bildhaft als einzelne Knoten und Kanten im Webbrowser an (Abbildung 2). Die Anzeige basiert auf Javascript und erlaubt es, die Grafik in jede gewünschte Richtung zu drehen. Das gelingt, indem Sie den gewünschten Knoten anklicken. Ohne einen API-Key dürfen Sie jedoch nur eine begrenzte Anzahl Aufrufe tätigen. Diese reichen in der Regel jedoch, um einen Eindruck zu erlangen.

Abbildung 2: Die Webseite Visual Thesaurus zeigt die Verbindungen zwischen Worten als Baum, hier am Beispiel "help".

Wordnik

Das kommerzielle Produkt Wordnik [23], eine Art aufgebohrtes Wörterbuch ausschließlich für die englische Sprache, fokussiert in der Ausgabe insbesondere auf mobile Geräte. Vom Funktionsumfang her beinhaltet es Beschreibungen von Wörtern und Erläuterungen zu deren Bedeutungen sowie eine größere Menge an Beispielen. Dabei bindet es die Ergebnisse verschiedener Quellen mit ein, so vom Wiktionary und aus WordNet (Abbildung 3).

Abbildung 3: Das kommerzielle Produkt WordNik zeichnet sich durch ein übersichtliches und gut strukturiertes Suchergebnis aus.

Alle Module stehen unter der Apache Lizenz. Deren Quellcode finden Sie in einem Github-Repository. Die Anbindung gelingt über verschiedene Module und Schnittstellen, wie Python, Ruby, Javascript, Java und PHP. Der Einsatz setzt ein Registrieren beim Hersteller voraus, von dem Sie einen entsprechenden API-Key erhalten.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 7 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • K-splitter
    Wer sagt, dass Klatsch und Tratsch in einer Linuxzeitschrift keinen Platz haben? K-splitter plaudert Monat für Monat aus dem KDE-Nähkästchen, posaunt Neuigkeiten aus der K-Welt aus und schaut hin und wieder neugierig hinter die Kulissen.
  • K-tools
    In dieser Rubrik stellen wir Monat für Monat Tools vor, die sich bei der Arbeit unter KDE als besonders nützlich erweisen, eine Aufgabe erfüllen, die sonst geflissentlich unbeachtet bleibt, oder einfach nur zu den netten Dingen im Leben gehören, die man – einmal entdeckt – nicht mehr missen möchte.
  • Rätselhaft
    Buchstaben- und Zahlenrätsel bringen Spannung in den Alltag. Zeit also, zu prüfen, ob die entsprechenden Programme unter Linux den Ansprüchen genügen.
  • Korner: Suchen und Finden mit Kdict
    Vergesslich darf man ruhig sein – man sollte nur wissen, wo man suchen muss. Bei der Fahndung nach Definitionen, Erklärungen und Vokabeln hilft Kdict, die virtuelle Übersetzungshilfe des KDE-Projekts.
  • Schnelles Office-Paket des KDE-Desktop
    Büro-Software abseits von OpenOffice hat unter Linux einen schweren Stand. Doch die Entwickler von KOffice lassen sich von diesem Umstand nicht abschrecken. Dieser Artikel zeigt, was das KDE-Büropaket mit dem Sprung zur Version 1.4 erreicht hat.
Kommentare

Infos zur Publikation

LU 12/2016: Neue Desktops

Digitale Ausgabe: Preis € 5,99
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

Drucker Epson XP-332 unter ubuntu 14.04 einrichten
Andrea Wagenblast, 30.11.2016 22:07, 2 Antworten
Hallo, habe vergeblich versucht mein Multifunktionsgerät Epson XP-332 als neuen Drucker unter...
Apricity Gnome unter Win 10 via VirtualBox
André Driesel, 30.11.2016 06:28, 2 Antworten
Halo Leute, ich versuche hier schon seit mehreren Tagen Apricity OS Gnome via VirtualBox zum l...
EYE of Gnome
FRank Schubert, 15.11.2016 20:06, 2 Antworten
Hallo, EOG öffnet Fotos nur in der Größenordnung 4000 × 3000 Pixel. Größere Fotos werden nic...
Kamera mit Notebook koppeln
Karl Spiegel, 12.11.2016 15:02, 2 Antworten
Hi, Fotografen ich werde eine SONY alpha 77ii bekommen, und möchte die LifeView-Möglichkeit nu...
Linux auf externe SSD installieren
Roland Seidl, 28.10.2016 20:44, 1 Antworten
Bin mit einem Mac unterwegs. Mac Mini 2012 i7. Würde gerne Linux parallel betreiben. Aber auf e...