AA_123rf-10037094_JanMiks-123RF.jpg

© JanMiks, 123RF

Unscharfe Suche in Texten mit Agrep

Besser finden

Das kleine Werkzeug Agrep erweitert die Möglichkeiten beim Durchstöbern von Texten um die unscharfe Suche.

Den Konsolenbefehl Grep, der es erlaubt, Zeichenketten und Muster in Textdateien aufzufinden, kennt wohl jeder Linux-Anwender, der sich schon einmal mit der Kommandozeile beschäftigt hat. Weniger bekannt sind seine Varianten: egrep Begriff Datei(en) entspricht exakt dem Aufruf grep -e Begriff Datei(en), wobei das Tool den Begriff als erweiterten regulären Ausdruck interpretiert. Dagegen interpretiert fgrep als Äquivalent zu grep -f alle Komponenten in Begriff als normale Zeichen und ignoriert deren mögliche Regex-Bedeutung. Dadurch arbeitet es etwas schneller als ein "nacktes" Grep, was sich vor allem beim Durchsuchen großer Datenmengen bemerkbar macht. Der dritte im Bunde, rgrep, arbeitet sich wie grep -r rekursiv durch Ordnerstrukturen, was ihn nicht gerade zum Geschwindigkeitswunder macht.

Eines aber haben alle gemeinsam: Sie finden nur direkte Treffer für Begriff, eine Suche nach ähnlichen Begriffen klappt nur beim entsprechenden Design eines passenden Regex. Sehen wir uns als Beispiel einige Zeichenketten an, die dem String "grep" ähneln: "gerp" etwa unterscheidet sich durch das Vertauschen zweier Buchstaben von "grep", bei "grap" oder "grip" gibt es eine Buchstabenersetzung, und "egrep" enthält eine Hinzufügung.

Um solche Abweichungen mathematisch exakt zu erfassen, definierte 1965 der russische Mathematiker Wladimir Iossifowitsch Lewenstein die nach ihm benannte Levenshtein-Distanz [1]. Die auch Editierdistanz genannte Größe verwendet als Maßgabe die minimale Anzahl von

...

Liebe Leserin, lieber Leser,

dieser Artikel ist derzeit nicht in vollem Umfang online zugänglich.

Sie haben die Möglichkeit, diesen Beitrag als PDF zu erwerben. Dazu nutzen Sie bitte die Box unter dem Artikel. Alternativ erweben Sie die Ausgabe als PDF in unserem Online-Shop.

LinuxUser-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift LinuxUser finden Sie im Archiv.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Wörter offline suchen und übersetzen
    Ding kombiniert als leistungsstarkes Frontend die Wörterbuch-Suche, einen Thesaurus und das Übersetzen vom Deutschen ins Englische und umgekehrt.
  • Die Bash, das unbekannte Wesen
    Es gibt neben den Pipes noch verschiedene andere Verfahren, um mehrere Shell-Befehle miteinander zu verbinden bzw. sie parallel auszuführen. Die wichtigsten Methoden werden in dieser Folge der Bash-Serie vorgestellt.
  • Wörterbücher und Textdateien durchsuchen mit grafischem Frontend
    Beim Lesen eines englischen Texts fällt oft das wichtigste Wort nicht ein. Praktisch, wenn eine Software es einfach auf Mausklick übersetzt. Das Programm Ding durchsucht dazu Wörterbücher, kommt aber auch mit anderen Textdateien zurecht.
  • Erste Schritte mit Regular Expressions
    Computer erleichtern die Arbeit – man muss ihnen nur genau sagen, was sie tun sollen. Mit regulären Ausdrücken beschleunigen Sie das Suchen und Ersetzen von Zeichenketten auf elegante Art.
  • Schnipseljagd
    Computer erleichtern die Arbeit – sofern man ihnen genau sagt, was sie tun sollen. Mit regulären Ausdrücken beschleunigen Sie das Suchen und Ersetzen von Zeichenketten auf elegante Art.
Kommentare

Infos zur Publikation

LU 10/2016: Kryptographie

Digitale Ausgabe: Preis € 0,00
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

zweites Bildschirm auf gleichem PC einrichten
H A, 30.09.2016 19:16, 0 Antworten
Hallo, ich habe Probleme mein zweites Bildschirm einzurichten.(Auf Debian Jessie mit Gnome) Ich...
Probleme mit MPC/MPD
Matthias Göhlen, 27.09.2016 13:39, 2 Antworten
Habe gerade mein erstes Raspi Projekt angefangen, typisches Einsteigerding: Vom Raspi 3B zum Radi...
Soundkarte wird erkannt, aber kein Ton
H A, 25.09.2016 01:37, 6 Antworten
Hallo, Ich weiß, dass es zu diesem Thema sehr oft Fragen gestellt wurden. Aber da ich ein Linu...
Scannen nur schwarz-weiß möglich
Werner Hahn, 20.09.2016 13:21, 2 Antworten
Canon Pixma MG5450S, Dell Latitude E6510, Betriebssyteme Ubuntu 16.04 und Windows 7. Der Canon-D...
Meteorit NB-7 startet nicht
Thomas Helbig, 13.09.2016 02:03, 4 Antworten
Verehrte Community Ich habe vor Kurzem einen Netbook-Oldie geschenkt bekommen. Beim Start ersch...