Regexe in Perl

Ein Sprache wie Perl wäre ohne reguläre Ausdrücke gar nicht vorstellbar [4]. Ein Vergleich geschieht hier mit der Funktion m für den Operator "match", beispielsweise so:

$zeichenkette =~ m/Muster/;

Sofern das Muster auf die Zeichenkette passt, fällt das Ergebnis des Vergleichs positiv aus. Für eine fünfstellige Postleitzahl mit erlaubter Null am Anfang passt das Muster \d{5}, da diese aus fünf beliebigen Ziffern besteht (Listing 5).

Mit Länderkennung für die Schweiz und vier Ziffern lautet das Muster CH-[1-9]\d{3}, wobei die erste Ziffer nur aus dem Bereich 1 bis 9 kommen darf. Die Mengenangabe {3} fordert exakt drei weitere, beliebige Ziffern – sowohl bei weniger als auch bei mehr Ziffern schlägt der Vergleich fehl. Eine Prüfung auf CH-1000 fiele andererseits syntaktisch gültig aus.

Für eine zusätzliche Ortsangabe der Form A-4020 Linz genügt die Ergänzung des bisherigen Musters um ein Leerzeichen ("\s") und alphanumerische Zeichen. Der einfache Ausdruck für eine Adresse in Österreich lautet damit A-\d{4}\s[A-Z][a-z]+. Die Schreibweise [A-Z][a-z]+ stellt dabei sicher, dass der Ortsname aus mindestens zwei Buchstaben besteht und mit einem Großbuchstaben beginnt.

Listing 5

#!/usr/bin/perl -w
my ($muster, $postcode);
$postcode = '01256';
$muster = '\d{5}';
if($postcode =~ m/$muster/)
  {print "PLZ-Format ist korrekt: $postcode\n"}

Matches im Netz

Webdesigner und Grafikspezialisten arbeiten viel mit Farbcodes. Häufig kommt dabei eine hexadezimale Schreibweise zum Einsatz, beispielsweise #ff0000 für Rot in der RGB-Notation. Um diese Angabe automatisiert auf grammatikalische Korrektheit zu prüfen, genügt als Muster der reguläre Ausdruck #[a-f\d]{6}. Auf ein Hash-Zeichen folgen sechs Buchstaben aus dem Bereich a bis f oder die Ziffern 0 bis 9 – alle anderen Zeichen repräsentieren keinen richtigen Farbcode. In der Auswertung bietet sich diese Zeile an, beispielsweise in einem CGI-Skript in Perl (Listing 6).

Listing 6

$muster = '#[a-f\d]{6}';
$farbcode =~ m/$muster/i;

Das unscheinbare i am Ende entspricht der Option -i bei Grep und sorgt auch hier dafür, dass sowohl Groß- als auch Kleinbuchstaben gelten. Das deckt alle Varianten des Farbcodes ab. Auch bei Formularen auf Webseiten empfiehlt es sich, die Nutzereingabe zu validieren. Für E-Mail-Adressen schlägt Jan Goyvaerts [5] folgendes Muster vor:

^[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,6}$

Es passt auf die von der ICANN freigegebenen Top Level Domains von bis zu sechs Buchstaben Länge. Vor dem Klammeraffen (@) erwartet der Ausdruck mindestens ein Zeichen aus der Menge der Buchstaben oder Ziffern beziehungsweise einen Unterstrich, ein Prozentzeichen oder ein Plus oder Minus. Der Domainname besteht aus mindestens einem Buchstaben, einer Ziffer, einem Punkt oder einem Bindestrich. Nach dem Punkt als Trennzeichen (\.) folgt die Top-Level-Domain, welche aus minimal zwei und maximal sechs Buchstaben bestehen darf (etwa de, org, info oder travel).

Nutzen Sie den Ausdruck in einem PHP-Skript (Listing 7), so hilft wieder die Ergänzung um das i am Ende. Zeile 5 des Listings gibt die Trefferliste aus, sofern die E-Mail-Adresse der Spezifikation entspricht. Ein solcher Treffer besagt freilich noch nicht, dass es diese Adresse auch tatsächlich gibt. Diese Prüfung muss gesondert erfolgen, etwa mittels einer Auswertung des Fehlercodes bei der Zustellung einer Nachricht.

Listing 7

<?php
$email = "geheim.agent@unterschlupf.de";
$muster = '/^[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}$/i';
preg_match($muster, $email, $treffer);
print_r($treffer);
?>

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Schnipseljagd
    Computer erleichtern die Arbeit – sofern man ihnen genau sagt, was sie tun sollen. Mit regulären Ausdrücken beschleunigen Sie das Suchen und Ersetzen von Zeichenketten auf elegante Art.
  • Einfaches Erstellen von regulären Ausdrücken
    Wo reguläre Ausdrücke für den Profi ein Denksport sind, steht der Anfänger verzweifelt vor einem Dickicht an Kürzeln und Zeichen. Für den Durchblick sorgt der Editor txt2regex.
  • Zu Befehl
    Auch wenn sich viele Dinge bequem über grafische Oberflächen wie KDE oder GNOME regeln lassen – wer sein Linux-System richtig ausreizen möchte, kommt um die Kommandozeile nicht herum. Abgesehen davon gibt es auch sonst viele Situationen, wo es gut ist, sich im Befehlszeilendschungel ein wenig auszukennen.
  • Teil 3: String-Verarbeitung und Reguläre Ausdrücke
    Die Grundlagen der Zeichenketten haben wir in der letzten Ausgabe gelegt. Diesmal wollen wir uns aber nicht mit einfachen Leer-Tests oder Längenanzeigen begnügen, sondern unsere Strings kräftig durcheinander wirbeln.
  • Am Fließband
    Mit Sed editieren Sie Textdaten ohne interaktive Benutzeroberfläche – auch in Pipes oder der Eingabeumlenkung. In einer einzigen Zeile lassen sich umfangreiche Editierkommandos absetzen.
Kommentare

Infos zur Publikation

LU 08/2016: Multimedia

Digitale Ausgabe: Preis € 5,99
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Aktuelle Fragen

Wie kann man das berichtigen
Udo Muelle, 17.07.2016 20:39, 1 Antworten
Fehlschlag beim Holen von http://extra.linuxmint.com/dists/rosa/main/binary-i386/Packages Hash-S...
Installation Genimotion
Horst Müller, 15.07.2016 17:00, 1 Antworten
Hallo, ich kann Genimotion nicht installieren. Folgende Fehlermeldung habe ich beim Aufruf erh...
Probleme beim Hochfahren der Terastaion 5400 mit Unix-Distrib
Sheldon Cooper, 10.07.2016 09:32, 0 Antworten
Hallo ihr lieben, habe seit zwei Tagen das Problem, das das NAS (Raid5) nicht mehr sauber hoch...
Mit Firewire Videos improtieren?
Werner Hahn, 09.06.2016 11:06, 5 Antworten
Ich besitze den Camcorder Panasonic NV-GS330, bei dem die Videos in guter Qualität nur über den 4...
lidl internetstick für linux mint
rolf meyer, 04.06.2016 14:17, 3 Antworten
hallo zusammen ich benötige eure hilfe habe einen lidl-internetstick möchte ihn auf linux mint i...