Home / LinuxUser / 2002 / 08 / Reguläre Ausdrücke

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Debian leicht gemacht
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.

Aufmacher Artikel

Nadel im Heuhaufen

Reguläre Ausdrücke

01.08.2002 Regulären Ausdrücken begegnet man auf Unix-Systemen an allen Ecken und Enden. Doch was genau hat es damit auf sich, und wie nutzt man sie?

Reguläre Ausdrücke oder Regular Expressions sind kurz gesagt nichts weiter als Platzhalter für bestimmte Zeichenfolgen. Zum Einsatz kommen Regexps, wie man sie liebevoll abkürzt, bei Suchvorgängen unterschiedlichster Art, zum Beispiel in Texteditoren oder einer der zahlreichen Unix-Skriptsprachen.

Unzählige Sonderfunktionen und Specials machen reguläre Ausdrücke zu einer etwas unangenehmen und trockenen Materie. Wenn Sie sich das erste Mal durch die Grundlagen kämpfen, haben Sie mein aufrichtiges Mitgefühl. Aber glauben Sie mir, es lohnt sich!

Wo man auf Regexps trifft

Wer häufig auf der Kommandozeile arbeitet, nutzt grep für die Suche in Dateien. Dieses Tool verdankt regulären Ausdrücken sogar seinen Namen: Der ed-Befehl g/re/p druckt alle Zeilen einer Datei aus, die den regulären Ausdruck re enthalten – und das ist genau das Funktionsmuster von grep.

grep benötigt als Kommandozeilenargument zumindest den Suchausdruck. Die Datei(en), in der oder in denen gesucht werden soll, geben Sie als zusätzliche Argumente mit an. Sie wollen alle Nutzer Ihres Systems auflisten, deren Username mit dem Buchstaben t beginnt und die bash als Login-Shell nutzen?

grep -i ^t.*bash /etc/passwd

holt sie auf den Bildschirm.

Fehlen Dateinamen in der grep-Kommandozeile, so sucht das Tool in der Standardeingabe. Das ist ganz praktisch, wenn Sie die Ausgabe eines anderen Programms bearbeiten wollen. Wenn ich zum Beispiel auf der Suche nach Konqueror-Prozessen des Users mas bin, könnte ich folgenden Befehl verwenden:

ps -auwx | grep mas.*konqueror

Tabelle 1: Nützliche Optionen für <C>grep<C>

Befehl Bedeutung
-i Groß- und Kleinschreibung ignorieren
-l Nur die Dateinamen anzeigen, in denen der Ausdruck gefunden wird, nicht die zugehörigen Textzeilen
-v Suche umkehren: Nur die Textzeilen anzeigen, die den Suchausdruck nicht enthalten
-3 Nicht nur die Textzeile(n) mit dem Suchausdruck anzeigen, sondern zusätzlich noch je drei Zeilen davor und danach
-A 3 Nach der Zeile mit dem Suchausdruck werden zusätzlich noch die drei folgenden Zeilen angezeigt
-B 3 Vor der Zeile mit dem Suchausdruck werden zusätzlich die drei vorhergehenden Zeilen angezeigt

Die Suchfunktionen / (vorwärts) und ? (rückwärts) im Texteditor vi berücksichtigen immer reguläre Ausdrücke. In emacs mit seiner inkrementellen Suche würde das eher Verwirrung schaffen. Dort fahnden Sie erst auf ausdrücklichen Wunsch nach einer Regexp. Der Befehl für die gewohnte inkrementelle Suche heißt M-C-s, also [Strg-Alt-S]. Etwas geradliniger funktioniert M-x [Alt-X] search-forward-regexp: Dabei geben Sie den Suchausdruck erst einmal komplett ein und suchen anschließend.

Viele Leute lernen Regexps über perl kennen, doch auch die meisten anderen Skriptsprachen (darunter Tcl, Python und PHP) verstehen sie. Weniger bekannte (und trotzdem leistungsstarke) Regexp-Nutzer sind kleine Sprachen wie sed oder awk. Aber auch das C++-GUI-Toolkit Qt, das u. a. zum Schreiben von KDE-Programmen benutzt wird, kennt reguläre Ausdrücke.

Grundbausteine

Bei einfachen regulären Ausdrücken schreiben Sie im Prinzip ganz simpel hin, was Sie suchen möchten. Die meisten ASCII-Zeichen dürfen direkt benutzt werden: Auch ein einzelner Buchstabe ist bereits ein – wenn auch primitiver – Suchausdruck.

Die nächste Lektion lautet: Bestimmte Sonderzeichen aktivieren Sonderfunktionen. Das am meisten genutzte ist der Punkt: Er steht für ein beliebiges Zeichen. Die Regexp Hu.. sucht nach Hu, gefolgt von zwei beliebigen anderen Zeichen. Sie passt also gleichermaßen auf "Huhn" und "Hund", auch auf "Hut " (mit einem Leerzeichen danach), nicht aber auf einen einsamen "Hut" ohne ein nachfolgendes Zeichen.

Der Caret ^ sucht nach einem Zeilenanfang. Man nennt dies einen Anker: Es verankert den Suchausdruck am Anfang einer Zeile. Mit ^Huhn fahndet man nach einem Huhn am Zeilenbeginn.

Ganz analog steht das Dollarzeichen $ für ein Zeilenende. Der letzte Hund einer Zeile wäre also Hund$.

Weil ein regulärer Ausdruck normalerweise Zeile für Zeile überprüft wird, ergeben zusätzliche Zeichen vor dem ^ oder nach dem $ in der Regel keinen Sinn. Sprachen wie Perl erlauben da manchmal Ausnahmen – das sehen wir uns später noch an.

Den eigentlichen Reiz machen jedoch erst Kombinationen aus! ^Eins$ passt auf alle Zeilen, die genau das Wort "Eins" enthalten und sonst nichts. Eine leere Zeile finden Sie dementsprechend mit ^$: Gleich hinter dem Zeilenbeginn steht schon das Zeilenende, dazwischen befinden sich keinerlei Zeichen.

Achtung: Konstrukte wie ^ und $ repräsentieren in der durchsuchten Datei kein Zeichen, sondern sozusagen die Stelle zwischen zwei Zeichen.

grep ^a$ textdatei

beispielsweise gibt für jeden Treffer genau zwei Zeichen aus, ein "a" und einen Zeilenumbruch, obwohl der reguläre Ausdruck drei Stellen lang ist.

Tip a friend    Druckansicht Bookmark and Share
Kommentare

1826 Hits
Wertung: 82 Punkte (8 Stimmen)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 05/2014

Aktuelle Ausgabe kaufen:

Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,95 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 60,60) können Sie im Medialinx-Shop bestellen.

Tipp der Woche

Bilder vergleichen mit diffimg
Bilder vergleichen mit diffimg
Tim Schürmann, 01.04.2014 12:40, 1 Kommentare

Das kleine Werkzeug diffimg kann zwei (scheinbar) identische Bilder miteinander vergleichen und die Unterschiede optisch hervorheben. Damit lassen sich nicht nur Rätsel a la „Orignial und Fäls...

Aktuelle Fragen

programm suche
Hans-Joachim Köpke, 13.04.2014 10:43, 8 Antworten
suche noch programme die zu windows gibt, die auch unter linux laufen bzw sich ähneln sozusagen a...
Funknetz (Web-Stick)
Hans-Joachim Köpke, 04.04.2014 07:31, 2 Antworten
Bei Windows7 brauche ich den Stick nur ins USB-Fach schieben dann erkennt Windows7 Automatisch, a...
Ubuntu 13.10 überschreibt immer Windows 8 Bootmanager
Thomas Weiss, 15.03.2014 19:20, 8 Antworten
Hallo Leute, ich hoffe das ich richtig bin. Ich habe einen Dell Insipron 660 Ich möchte gerne Ub...
USB-PTP-Class Kamera wird nicht erkannt (Windows-only)
Wimpy *, 14.03.2014 13:04, 15 Antworten
ich habe meiner Frau eine Digitalkamera, AGFA Optima 103, gekauft und wir sind sehr zufrieden dam...
Treiber
Michael Kristahn, 12.03.2014 08:28, 5 Antworten
Habe mir ein Scanner gebraucht gekauft von Canon CanoScan LiDE 70 kein Treiber wie bekomme ich de...