Erste Schritte
Awk ist eine Skriptsprache, die speziell für die Bearbeitung und Auswertung von Textdateien konzipiert wurde. Sie stellt ein hilfreiches Tool für Systemadministratoren dar: Mit ihrer Hilfe kann zum Beispiel ein geänderter Dateipfad systemweit in einem Arbeitsschritt angepasst werden. Darüberhinaus gibt jedoch es viele weitere Einsatzmöglichkeiten. Ein Beispiel dafür ist die Auswertung von Textdateien, in denen Messdaten in tabulatorformatierten Tabellen aufgezeichnet wurden.
Ein Awk-Skript besteht aus einzelnen Befehlen oder Befehlsblöcken, die entweder nur unter bestimmten Bedingungen oder für alle Zeilen der Eingabe ausgeführt werden. Sie können die Awk-Befehle direkt von der Kommandozeile aufrufen oder in Dateien speichern.
Alle Beispieldaten zu diesem Artikel finden Sie sowohl auf der Heft-CD als auch online [1]. Um die Beispiele auszuprobieren sollten das Archiv in ein leeres Verzeichnis entpacken. Im Archiv sind zusätzliche Daten für eigene Übungen enthalten. Einige Beispiele nutzen außer Awk weitere Linux-Befehle.
Das erste Beispiel verwendet die Systemvariable $USER und begrüßt Sie zu einer kleinen Tour durch die Anwendungsmöglichkeiten von Awk:
echo $USER | awk '{print "Hallo " $1 "!"}'
Awk erhält den Inhalt von $USER als Befehlsparameter. Bei der Verarbeitung der Eingabezeile speichert Awk alle Datenfelder in den Variablen $1 bis $NF. Die Variable NF enthält die Anzahl der Datenfelder. Awk gibt den ersten übergebenen Parameter über den Befehl print zusammen mit dem Wort "Hallo" an der Standardausgabe aus. Wenn mehrere Befehle nacheinander folgen, werden sie durch ein Semikolon getrennt. Wenn Sie nur das dritte und vierte Feld einer Eingabezeile ausgeben möchten, dann schreiben Sie
echo "A B C D" | awk '{print $3 " " $4}'
Natürlich kann ein Werkzeug wie Awk auch mit mehreren Eingabezeilen umgehen. Zum Testen bietet sich das Unix-Programm Cal an. In Abbildung 1 gibt Awk die Zeilennummer, die Anzahl der Felder und zur Kontrolle die komplette Zeile ($0) aus. Die einzelnen Felder sind in den ersten Beispielen immer durch Leerzeichen oder Tabulatoren getrennt. Später werden wir auch andere Trennzeichen kennenlernen.
Awk benutzt neben NF und NR viele weitere Variablen um die Eingabe auszuwerten und die Ausgabe zu steuern. Eine komplette Übersicht der Variablen finden Sie im Awk-Handbuch [2] sowie in der Manpage zum Programm. Mit der Option --dump-variables können Sie bei einem Awk-Aufruf die wichtigsten Variablen in eine Datei sichern und später auswerten.
Dateien auswerten
In den meisten praktischen Anwendungen geht es darum, Daten aus Dateien einzulesen und zeilenweise zu verarbeiten. Dabei können auch mehrere Dateien gleichzeitig ausgewertet werden. Der Befehl awk '{print}' /etc/group gibt alle Zeilen der Datei /etc/group aus. Diese Datei enthält auf jeder Zeile die Datenfelder Gruppenname, Gruppenpasswort, Gruppen-ID und Benutzerliste. In der Benutzerliste stehen alle Nutzer, die zu dieser Gruppe gehören.
Allerdings sind die Datenfelder in dieser Datei nicht durch Leerzeichen oder Tabulatoren, sondern durch Doppelpunkte getrennt. Zum Auslesen der Gruppennamen oder anderer Datenfelder muss das Feldtrennzeichen mit der Variablen FS) übergeben werden. Diese Variable legt fest, an welchen Trennzeichen Awk die Zeile in Felder aufteilt. Sie kann auf der Kommandozeile gesetzt werden:
awk -F':' '{print $1}' /etc/groupAls Trennzeichen können Sie auch Posix-Zeichenklassen oder reguläre Ausdrücke verwenden. Wenn Sie also mit einer Datei arbeiten, in der die Datenfelder entweder durch Kommas, Tabulatoren oder Leerzeichen getrennt sind, dann geben Sie das Trennzeichen auf folgende Weise an:
awk -F'[,[:blank:]]' '{print $1 $2 $3}' daten2.txtMit Awk können Sie die Reihenfolge der Felder bei der Ausgabe verändern. Wenn Sie zuerst die ID, dann den Gruppennamen und dann die Nutzer ausgeben möchten, sieht der Aufruf so aus:
awk -F':' '{print $3 " " $1 " " $4}' /etc/group
Der Befehl print ist eignet sich nur für eine unformatierte Ausgabe. Eine wesentlich übersichtlichere Anzeige Ihrer Daten erhalten Sie mit dem Befehl printf(), der wie in C funktioniert. Die Formatierungsoptionen für Zahlen und Zeichenketten sind im Awk-Handbuch [2] ausführlich beschrieben. Im nächsten Beispiel werden ID und Nutzer formatiert aufgelistet:
awk -F':' '{printf("%5s %s\n",$3,$4)}' /etc/groupOft sollen bestimmte Eingabefelder nicht mehr in der Ausgabe enthalten sein. Hierfür können Sie dem entsprechenden Feld eine leere Zeichenkette zuweisen:
awk -F':' '{$2=""; print}' /etc/group
In der Ausgabe dieses Beispiels sind die Felder nicht mehr durch Doppelpunkte getrennt. Das liegt daran, dass Awk nicht nur ein Trennzeichen für die Ausgabe, sondern auch ein Trennzeichen für die Eingabe kennt. Sie können das Trennzeichen für die Ausgabe als Wert der Variablen OFS separat festlegen.



