Home / LinuxUser / 2011 / 09 / Erste Schritte mit Regular Expressions

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

„Klickbunt auf dem Server? Warum nicht, wenn's hilft!"
(220 Punkte bei 8 Stimmen)
KDE 4.10.2, Gnome 3.6 und mehr
(143 Punkte bei 5 Stimmen)
Google schmeißt Jabber raus ...
(121 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.

Schnipseljagd

Erste Schritte mit Regular Expressions

Regexe in Perl

Ein Sprache wie Perl wäre ohne reguläre Ausdrücke gar nicht vorstellbar [4]. Ein Vergleich geschieht hier mit der Funktion m für den Operator "match", beispielsweise so:

$zeichenkette =~ m/Muster/;

Sofern das Muster auf die Zeichenkette passt, fällt das Ergebnis des Vergleichs positiv aus. Für eine fünfstellige Postleitzahl mit erlaubter Null am Anfang passt das Muster \d{5}, da diese aus fünf beliebigen Ziffern besteht (Listing 5).

Mit Länderkennung für die Schweiz und vier Ziffern lautet das Muster CH-[1-9]\d{3}, wobei die erste Ziffer nur aus dem Bereich 1 bis 9 kommen darf. Die Mengenangabe {3} fordert exakt drei weitere, beliebige Ziffern – sowohl bei weniger als auch bei mehr Ziffern schlägt der Vergleich fehl. Eine Prüfung auf CH-1000 fiele andererseits syntaktisch gültig aus.

Für eine zusätzliche Ortsangabe der Form A-4020 Linz genügt die Ergänzung des bisherigen Musters um ein Leerzeichen ("\s") und alphanumerische Zeichen. Der einfache Ausdruck für eine Adresse in Österreich lautet damit A-\d{4}\s[A-Z][a-z]+. Die Schreibweise [A-Z][a-z]+ stellt dabei sicher, dass der Ortsname aus mindestens zwei Buchstaben besteht und mit einem Großbuchstaben beginnt.

Listing 5

#!/usr/bin/perl -w
my ($muster, $postcode);
$postcode = '01256';
$muster = '\d{5}';
if($postcode =~ m/$muster/)
  {print "PLZ-Format ist korrekt: $postcode\n"}

Matches im Netz

Webdesigner und Grafikspezialisten arbeiten viel mit Farbcodes. Häufig kommt dabei eine hexadezimale Schreibweise zum Einsatz, beispielsweise #ff0000 für Rot in der RGB-Notation. Um diese Angabe automatisiert auf grammatikalische Korrektheit zu prüfen, genügt als Muster der reguläre Ausdruck #[a-f\d]{6}. Auf ein Hash-Zeichen folgen sechs Buchstaben aus dem Bereich a bis f oder die Ziffern 0 bis 9 – alle anderen Zeichen repräsentieren keinen richtigen Farbcode. In der Auswertung bietet sich diese Zeile an, beispielsweise in einem CGI-Skript in Perl (Listing 6).

Listing 6

$muster = '#[a-f\d]{6}';
$farbcode =~ m/$muster/i;

Das unscheinbare i am Ende entspricht der Option -i bei Grep und sorgt auch hier dafür, dass sowohl Groß- als auch Kleinbuchstaben gelten. Das deckt alle Varianten des Farbcodes ab. Auch bei Formularen auf Webseiten empfiehlt es sich, die Nutzereingabe zu validieren. Für E-Mail-Adressen schlägt Jan Goyvaerts [5] folgendes Muster vor:

^[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,6}$

Es passt auf die von der ICANN freigegebenen Top Level Domains von bis zu sechs Buchstaben Länge. Vor dem Klammeraffen (@) erwartet der Ausdruck mindestens ein Zeichen aus der Menge der Buchstaben oder Ziffern beziehungsweise einen Unterstrich, ein Prozentzeichen oder ein Plus oder Minus. Der Domainname besteht aus mindestens einem Buchstaben, einer Ziffer, einem Punkt oder einem Bindestrich. Nach dem Punkt als Trennzeichen (\.) folgt die Top-Level-Domain, welche aus minimal zwei und maximal sechs Buchstaben bestehen darf (etwa de, org, info oder travel).

Nutzen Sie den Ausdruck in einem PHP-Skript (Listing 7), so hilft wieder die Ergänzung um das i am Ende. Zeile 5 des Listings gibt die Trefferliste aus, sofern die E-Mail-Adresse der Spezifikation entspricht. Ein solcher Treffer besagt freilich noch nicht, dass es diese Adresse auch tatsächlich gibt. Diese Prüfung muss gesondert erfolgen, etwa mittels einer Auswertung des Fehlercodes bei der Zustellung einer Nachricht.

Listing 7

<?php
$email = "geheim.agent@unterschlupf.de";
$muster = '/^[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}$/i';
preg_match($muster, $email, $treffer);
print_r($treffer);
?>
Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

Hits
Wertung: 92 Punkte (3 Stimmen)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

title_2013_06

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,95 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 60,60) können Sie im Medialinx-Shop bestellen.

Tipp der Woche

Emacs als Psychologe
Emacs als Psychologe
Tim Schürmann, 21.05.2013 11:49, 0 Kommentare

Wer beim Schreiben in Emacs nicht mehr weiter weiß oder schier an einer Programmieraufgabe verzweifelt, der kann den eingebauten Psychologen um Rat fragen.

1966 entwickelte der Infor...

Aktuelle Fragen

Kontakt via QR code hinzufügen
Herman Sproesser, 17.05.2013 17:46, 3 Antworten
Hi hab in der aktuellen ausgabe 06.2013 den artikel über QR Codes gelesen. Ich hab nartürlich...
Dateimanager Dolphin, wo legt er die Datei Kommentare ab?
Uwe Heine, 16.05.2013 15:19, 1 Antworten
Suse Linux 12.1 - KDE 4.7.2 / Dolphin 1.7. Ich habe bei vielen Dateien über Dolphin Kommentare...
wie baut man Kernel Module so, dass sie mit jedem Kernel laden?
GoaSkin , 22.04.2013 10:22, 1 Antworten
Hallo, baut man anhand eines Kernel-Sources Module, nutzt Linux im Normalfall eine strikte V...
Problem beim Installieren von SuSe 12.3
Georg Prokert, 14.04.2013 00:04, 16 Antworten
Hallo, auf meinem neuem Laptop (Acer Aspire V3-771, Intel Core i5-3230 M, Intel HD Graphics 4...
lvm wieder loswerden
Peter Dibbern, 11.04.2013 16:28, 4 Antworten
Ich habe sämtliche alten Kisten ausgeschlachtet und aus der Teilen einen Rechner zusammengeschrau...