Schnipseljagd
Erste Schritte mit Regular Expressions
Neben dem Übertragen und Darstellen von Daten zählt das Suchen und Ersetzen in Textstrukturen und Zeichenketten zu den häufigsten Aktionen beim Umgang mit dem Computer. Bei letzterem helfen die sogenannten regulären Ausdrücke (engl.: "regular expressions"). Deren Konzept umfasst einen komplexen Text- und Zeichenfilter, der ein ein effektives Suchen und Ersetzen in Zeichenketten jeglicher Form ermöglicht – etwa bei Strings in Programmiersprachen, in Ergebnissen von Datenbankabfragen und in Dokumenten als Dateien auf einem Datenträger.
Es spielt dabei keine Rolle, ob die Textdaten strukturiert vorliegen oder nicht – über Erfolg oder Misserfolg entscheidet nur die richtige Formulierung des regulären Ausdrucks (kurz auch Regex oder RE genannt). Allerdings fällt bei strukturierten Dokumentformaten wie CSV, HTML, XML, XSLT und LaTeX der Einsatz der REs meist leichter. Das Regex-Konzept ist weit verbreitet und zeichnet sich durch sehr hohe Stabilität aus. Für die Programmiersprachen Java, Perl, Python, PHP, Ruby, das .NET-Framework und für die Bash gehört es zum Standardumfang.
Die Beschreibung der gesuchten (Zeichen-)Muster folgt bestimmten syntaktischen Regeln, auch Grammatik genannt. Ein Programm wertet diese Grammatik aus und wendet sie auf eine Menge von Zeichen an. Der Rückgabewert umfasst eine Untermenge von Zeichen oder eine Trefferliste. Gibt es keine Übereinstimmung, bleibt diese Liste leer.
Reguläre Ausdrücke formulieren
Bei der Formulierung regulärer Ausdrücke gilt es generell zwei Punkte zu beachten: Erstens hilft es, wenn das Encoding für die Textdaten identisch mit dem des Regex ist. Anderenfalls müssen Sie Umlaute und Sonderzeichen im regulären Ausdruck für das Encoding der Textdaten anpassen. Der zweite Punkt betrifft die Eigenheiten der Regex-Implementierung in der
Liebe Leserin, lieber Leser,
dieser Artikel ist nur für Mitglieder der LinuxCommunity zugänglich, die ein Community-Abo der Zeitschrift LinuxUser besitzen. Das Community-Abonnement kostet zusätzlich zum Printabo 1 Euro pro Monat und bietet vollen Online-Zugriff auf sämtliche LinuxUser-Artikel, Chat-Workshops und das exklusive LC-Klubforum. Falls Sie bereits Abonnent eines Community-Abos sind, melden Sie sich bitte über das Login-Menü an.
Um ein Community-Abonnement abzuschließen, müssen Sie sich registrieren.
Sind Sie bereits Mitglied auf der LinuxCommunity und möchten ein Community-Abo abschließen, klicken Sie nach dem Login auf "Persönliche Einstellungen" und wählen "Community-Abonnement abschließen".
LinuxUser-Artikel werden 12 Monate nach der Erstveröffentlichung automatisch freigeschaltet. Weitere Artikel aus der Zeitschrift LinuxUser finden Sie im Archiv.



