Nadel im Heuhaufen
Reguläre Ausdrücke
Unterschiede der Bibliotheken
Bereits mehrfach habe ich angedeutet, dass verschiedene Programme mit regulären Ausdrücken etwas unterschiedlich umgehen. Solange man sich nur mit einem einzigen Tool beschäftigt, etwa während der Programmierung eines Perl-Skripts, macht das keine Probleme. Beim raschen Wechsel oder der gleichzeitigen Benutzung mehrerer Werkzeuge kann es schon etwas Unmut stiften.
Die Differenzen betreffen vor allem zwei Punkte. Erstens: Erwartet das Programm einen "einfachen" oder einen "erweiterten" regulären Ausdruck? Dabei geht es vor allem darum, ob die ganzen Sonderfunktionen, z. B. das + oder die runden Klammern, erst durch einen vorangestellten Backslash \ eingeschaltet werden müssen oder ob sie schon aktiv sind (und durch einen Backslash ausgeschaltet würden).
Faustregel: Die meisten Skriptsprachen verwenden erweiterte reguläre Ausdrücke, Sie können die hier vorgestellten Funktionen also direkt einsetzen. Zu grep gibt es besagte Version namens egrep, die ebenfalls erweiterte Regexps versteht. Die meisten Editoren und Kommandozeilenbefehle hingegen erwarten einfache reguläre Ausdrücke; wenn dabei irgend etwas nicht funktioniert, ergänzen Sie Backslashes an den strategischen Punkten.
Zweitens und in der Praxis nicht ganz so problematisch: Ausgefeilte Details und raffinierte Spezialfunktionen sind meistens private Erweiterungen, die selbstredend in anderer Software nicht mehr zur Verfügung stehen. Perl beispielsweise erlaubt Ihnen das Unterbringen von Kommentaren in regulären Ausdrücken und kennt Spezialfunktionen für virtuelle Ausdrücke (das sind "vorausschauende" Ausdrücke, die prüfen, ob nach der eigentlichen Regexp ein bestimmter Text folgt oder nicht, ohne dass dieser Text jedoch zur Regexp gehören würde) – für grep ergäbe so etwas gar keinen Sinn.
Rückbesinnung innerhalb eines Ausdrucks
Runde Klammern umschließen – wie wir bereits festgestellt haben – eine Zeichengruppe. Diese Gruppen hatten wir bislang nur für das Wiederholen von Zeichenfolgen eingesetzt.
Die wahre Aufgabe solcherlei Gruppierung liegt jedoch woanders: Eine Gruppe definiert einen Teil-String, auf den man später Bezug nehmen kann. Sobald die Software also einen Ausdruck innerhalb von runden Klammern findet, merkt sie ihn sich. An einer anderen Stelle können Sie diesen String wieder verlangen.
Ein Beispiel: Die Regexp (BusBahn) passt wahlweise auf einen Bus oder eine Bahn. Weil sie in runden Klammern steht, merkt sich die Software, was davon gefunden wurde – "Bus" oder "Bahn". Die Zeichenfolge wird in einer Variablen abgespeichert, wobei die hierfür benutzten Variablen der Einfachheit halber von eins bis neun durchnummeriert werden. Variable eins enthält den Inhalt der ersten Gruppe, Variable zwei den der zweiten Gruppe usw.
Mit dem Konstrukt \1 ff. beziehen Sie sich anschließend auf diese Variablen. Nehmen wir die Datei Verbindungen.txt aus Listing 1 zur Hilfe, die die Verbindungen von Vilsbiburg über Landshut nach München enthält.
Listing 1
Beispieldatei Verbindungen.txt
VIB mit nach LA mit nach M 10:45 Bus 11:52 Bahn 13:05 10:49 Bahn 11:19 Bahn 12:05 11:45 Bus 12:54 Bus 15:10 12:45 Bus 13:51 Bahn 15:05 13:49 Bahn 14:19 Bahn 15:05
Nun laufe ich beim Umsteigen nicht gerne vom Busbahnhof zum Hauptbahnhof. Ich möchte also nur diejenigen Verbindungen angezeigt bekommen, bei denen ich entweder nur mit dem Bus oder nur mit der Bahn fahre. Dafür verwende ich folgenden Befehl:
egrep '(Bus|Bahn).*\1' Verbindungen.txt
Die Regexp sucht zunächst nach "Bus" oder "Bahn" und speichert den gefundenen Text in der Variablen eins ab. Danach muss eine beliebige Zeichenfolge stehen (".*") und anschließend noch einmal der Inhalt der Variablen \1. Wurde zunächst also "Bus" gefunden, muss die Zeile später nochmal "Bus" enthalten, bei "Bahn" muss ein zweites Mal "Bahn" vorkommen.
Ausgegeben werden demnach die folgenden Zeilen:
10:49 Bahn 11:19 Bahn 12:05 11:45 Bus 12:54 Bus 15:10 13:49 Bahn 14:19 Bahn 15:05



