Home / LinuxUser / 2002 / 08 / Reguläre Ausdrücke

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(161 Punkte bei 4 Stimmen)
Mandriva in Nöten
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Nadel im Heuhaufen

Reguläre Ausdrücke

Unterschiede der Bibliotheken

Bereits mehrfach habe ich angedeutet, dass verschiedene Programme mit regulären Ausdrücken etwas unterschiedlich umgehen. Solange man sich nur mit einem einzigen Tool beschäftigt, etwa während der Programmierung eines Perl-Skripts, macht das keine Probleme. Beim raschen Wechsel oder der gleichzeitigen Benutzung mehrerer Werkzeuge kann es schon etwas Unmut stiften.

Die Differenzen betreffen vor allem zwei Punkte. Erstens: Erwartet das Programm einen "einfachen" oder einen "erweiterten" regulären Ausdruck? Dabei geht es vor allem darum, ob die ganzen Sonderfunktionen, z. B. das + oder die runden Klammern, erst durch einen vorangestellten Backslash \ eingeschaltet werden müssen oder ob sie schon aktiv sind (und durch einen Backslash ausgeschaltet würden).

Faustregel: Die meisten Skriptsprachen verwenden erweiterte reguläre Ausdrücke, Sie können die hier vorgestellten Funktionen also direkt einsetzen. Zu grep gibt es besagte Version namens egrep, die ebenfalls erweiterte Regexps versteht. Die meisten Editoren und Kommandozeilenbefehle hingegen erwarten einfache reguläre Ausdrücke; wenn dabei irgend etwas nicht funktioniert, ergänzen Sie Backslashes an den strategischen Punkten.

Zweitens und in der Praxis nicht ganz so problematisch: Ausgefeilte Details und raffinierte Spezialfunktionen sind meistens private Erweiterungen, die selbstredend in anderer Software nicht mehr zur Verfügung stehen. Perl beispielsweise erlaubt Ihnen das Unterbringen von Kommentaren in regulären Ausdrücken und kennt Spezialfunktionen für virtuelle Ausdrücke (das sind "vorausschauende" Ausdrücke, die prüfen, ob nach der eigentlichen Regexp ein bestimmter Text folgt oder nicht, ohne dass dieser Text jedoch zur Regexp gehören würde) – für grep ergäbe so etwas gar keinen Sinn.

Rückbesinnung innerhalb eines Ausdrucks

Runde Klammern umschließen – wie wir bereits festgestellt haben – eine Zeichengruppe. Diese Gruppen hatten wir bislang nur für das Wiederholen von Zeichenfolgen eingesetzt.

Die wahre Aufgabe solcherlei Gruppierung liegt jedoch woanders: Eine Gruppe definiert einen Teil-String, auf den man später Bezug nehmen kann. Sobald die Software also einen Ausdruck innerhalb von runden Klammern findet, merkt sie ihn sich. An einer anderen Stelle können Sie diesen String wieder verlangen.

Ein Beispiel: Die Regexp (BusBahn) passt wahlweise auf einen Bus oder eine Bahn. Weil sie in runden Klammern steht, merkt sich die Software, was davon gefunden wurde – "Bus" oder "Bahn". Die Zeichenfolge wird in einer Variablen abgespeichert, wobei die hierfür benutzten Variablen der Einfachheit halber von eins bis neun durchnummeriert werden. Variable eins enthält den Inhalt der ersten Gruppe, Variable zwei den der zweiten Gruppe usw.

Mit dem Konstrukt \1 ff. beziehen Sie sich anschließend auf diese Variablen. Nehmen wir die Datei Verbindungen.txt aus Listing 1 zur Hilfe, die die Verbindungen von Vilsbiburg über Landshut nach München enthält.

Listing 1

Beispieldatei Verbindungen.txt

VIB     mit   nach LA   mit   nach M
10:45   Bus   11:52     Bahn  13:05
10:49   Bahn  11:19     Bahn  12:05
11:45   Bus   12:54     Bus   15:10
12:45   Bus   13:51     Bahn  15:05
13:49   Bahn  14:19     Bahn  15:05

Nun laufe ich beim Umsteigen nicht gerne vom Busbahnhof zum Hauptbahnhof. Ich möchte also nur diejenigen Verbindungen angezeigt bekommen, bei denen ich entweder nur mit dem Bus oder nur mit der Bahn fahre. Dafür verwende ich folgenden Befehl:

egrep '(Bus|Bahn).*\1' Verbindungen.txt

Die Regexp sucht zunächst nach "Bus" oder "Bahn" und speichert den gefundenen Text in der Variablen eins ab. Danach muss eine beliebige Zeichenfolge stehen (".*") und anschließend noch einmal der Inhalt der Variablen \1. Wurde zunächst also "Bus" gefunden, muss die Zeile später nochmal "Bus" enthalten, bei "Bahn" muss ein zweites Mal "Bahn" vorkommen.

Ausgegeben werden demnach die folgenden Zeilen:

10:49   Bahn  11:19     Bahn  12:05
11:45   Bus   12:54     Bus   15:10
13:49   Bahn  14:19     Bahn  15:05
Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

Hits
Wertung: 69 Punkte (1 Stimme)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 06/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...