sed

Der Stream-Editor sed hilft beim automatischen Verändern einer oder mehrerer Dateien, vereinfacht sich wiederholende Änderungen oder erstellt gleich ganze Konvertierungsprogramme. Monotone Aufgaben der Textverarbeitung lassen sich so im Handumdrehen lösen.

Zu Befehl

Auch wenn sich viele Dinge bequem über grafische Oberflächen wie KDE oder GNOME regeln lassen – wer sein Linux-System richtig ausreizen möchte, kommt um die Kommandozeile nicht herum. Abgesehen davon gibt es auch sonst viele Situationen, in denen es gut ist, sich im Befehlszeilendschungel ein wenig auszukennen.

Der Stream-Oriented Editor ist kein interaktiver Editor, sondern eine Art Textfilter, der bestimmte Zeichen oder Zeichenkombinationen sucht und ersetzt. Stream-oriented oder “zeichenstromorientiert” bedeutet, dass von stdinDaten entgegengenommen und nach der Bearbeitung wieder auf stdoutausgegeben werden.

Auf der Kommandozeile gibt es grundsätzlich zwei Möglichkeiten, den sed aufzurufen:

sed [-n] [-e] 'befehl' datei(en) – ein 'befehl' wird auf der Kommandozeile angegeben und auf datei(en) angewendet
sed [-n] -f script datei(en) – eine externe Skript-Datei mit sed-Befehlen wird aufgerufen und auf datei(en) angewendet

Gibt es keine datei(en) in dem Aufruf, liest sed von der Standardeingabe. Jede gelesene Zeile wird mit den sed-Kommandos bearbeitet und in eine Art Puffer geschrieben, dessen Inhalt zum Schluss auf der Standardausgabe angezeigt wird.

Regulär ausgedrückt

Um sed effektiv einzusetzen, ist es sinnvoll, sich ein paar reguläre Ausdrücke (“regular expressions”, siehe auch man 7 regex) anzuschauen. Diese Suchmuster haben normalerweise zwei Komponenten: die Angabe, nach welchem Zeichen gesucht wird, und die Angabe, wie oft die gesuchten Zeichen auftreten dürfen. Was sich kompliziert anhört, kann man sich in einer Tabelle ganz einfach vor Augen führen (siehe Tabelle 1):

Tabelle 1: Suchmuster – “regular expressions”

Muster	Bedeutung
`abc`	genau diese Zeichenkette: “abc”
`[abc]`	eines dieser Zeichen: a, b oder c
`[^abc]`	keines der Zeichen darf auftauchen
`[a-c]`	eines der Zeichen von a bis c
`.`	ein beliebiges Zeichen
`?`	das Muster vor dem ? darf einmal oder gar nicht auftreten
`*`	das Muster darf beliebig oft oder gar nicht auftreten
`+`	das Muster darf beliebig oft, muss aber mindestens einmal auftreten
`{n}`	das Muster muss genau `n`-mal auftreten
`{,n}`	das Muster darf höchstens `n`-mal auftreten
`{n,}`	das Muster muss mindestens `n`-mal auftreten
`{n,m}`	das Muster muss mindestens `n`-mal und höchstens `m`-mal auftreten

Gesucht, gefunden

In einem sed-Skript wird zunächst nach einem übereinstimmenden Muster gesucht und danach die Anweisung ausgeführt. Eine Ausgabe wird erzeugt und der Prozess für jede Zeile des Skriptes wiederholt. sed wechselt danach zur nächsten Zeile der Eingabe-Datei und fängt von vorne an.

Am besten machen Sie sich die Arbeitsweise von sed an einem kleinen Beispiel klar. Nehmen wir an, Sie haben eine HTML-Datei, in der häufig eine bestimmte URL vorkommt, die durch eine andere ersetzt werden soll. In einer Testdatei url.html sollen alle Links der Form

<a href="http://www.huhnix.net/">http://www.huhnix.net/</a>

ersetzt werden durch

<a href="http://www.huhnix.org/">http://www.huhnix.org/</a>

Der erste Ansatz ist die Verwendung des folgenden Befehls:

huhn@asteroid:~$ sed 's/huhnix.net/huhnix.org/' url.html

Zwischen den Schrägstrichen findet die Ersetzung statt – nach dem ersten / steht das, was ersetzt werden soll, nach dem zweiten das, was stattdessen erscheinen soll, und der dritte Schrägstrich markiert das Ende der Ersetzung. Falls die Schrägstriche im Suchmuster vorkommen, können auch andere alphanumerische Zeichen als Begrenzer eingesetzt werden. Hier lässt sich z. B. auf # oder | ausweichen:

huhn@asteroid:~$ sed 's#http://www.huhnix.net#http://www.huhnix.org#' url.html

Es empfiehlt sich, die sed-Befehle mit ' ' zu maskieren und so vor einem Zugriff durch die Shell zu schützen, die eventuell einige Zeichen als eigene Metazeichen erkennen würde. Bei dem eben gezeigten Aufruf wird das Ergebnis zunächst nach stdout geschrieben, und Sie haben die Möglichkeit, den Output zu kontrollieren. Bei einer längeren Datei leiten Sie die Ausgabe am besten mit dem Pipe-Zeichen | in einen Pager Ihrer Wahl um, also z. B.:

huhn@asteroid:~$ sed 's/huhnix.net/huhnix.org/' url.html | less

Soll der Output stattdessen in eine Datei umgeleitet werden, verwenden Sie das Größer-Zeichen > zusammen mit dem Namen der Datei, in die geschrieben werden soll, also sed 's/huhnix.net/huhnix.org/' url.html > neue_url.html.

Beim Output auf der Kommandozeile sehen Sie, dass sed immer nur das erste Vorkommen des Suchmusters pro Zeile ersetzt:

…
<a href="http://www.huhnix.org/">http://www.huhnix.net/</a>

Sollen alle Vorkommen des Suchmusters in der entsprechenden Zeile ersetzt werden, teilen Sie sed das durch ein angehängtes g (für “global”) mit:

huhn@asteroid:~$ sed 's/huhnix.net/huhnix.org/g' url.html
…
<a href="http://www.huhnix.org/">http://www.huhnix.org/</a>

Zeilenweise?

Noch genauer treffen Sie die einzelnen Zeilen durch Voranstellen der Zeilennummer. Soll nur in der ersten Zeile gesucht und ersetzt werden, stellen Sie eine “1” voran: '1s/huhnix.net/huhnix.org/g' – auch hier ist das g wieder wichtig, falls der String mehr als einmal in der ersten Zeile vorkommt. Sollen gleich mehrere Zeilen ausgewählt werden, z. B. 1 bis 20, heißt der Befehl '1,20s/huhnix.net/huhnix.org/g'. Entsprechend lassen sich Zeilen ausschließen. Der Aufruf '5-15!s/huhnix.net/huhnix.org/g' wird Ersetzungen in der gesamten Datei bis auf die Zeilen 5-15 vornehmen.

Gescriptet

Zusammen mit der Option -f kann in der Eingabezeile auf Befehle verzichtet und stattdessen ein Skript mit sed-Kommandos gestartet werden. In so einer Datei sammeln Sie mehrere Befehle, die dann nacheinander auf die Eingabe angewendet werden. Nehmen wir an, in einem Verzeichnis liegen mehrere MP3s, deren Dateinamen Ihnen nicht gefallen:

huhn@asteroid:~$ ls
01.%20Welcome%20To%20Cabaret.mp3
02.%20Natives.mp3
03.%20Fairytale%20In%20York.mp3
04.%20Delirium%20Tremens.mp3
05.%20Black%20Is%20The.mp3
06.%20Missing%20You.mp3
07.%20Cliffs%20of%20Dooneen.mp3
…

Es sollen nun alle Punkte hinter den Track-Nummern und die “%20”-Einträge durch Unterstriche ersetzt werden. Dieses sind zwei getrennte sed-Aufrufe, die Sie nun hintereinander in eine solche Skript-Datei schreiben:

s/\.%20/_/g
s/%20/_/g

Beachten Sie den Backslash vor dem Punkt: Wie Sie aus dem kurzen Ausflug ins Land der regulären Ausdrücke wissen, steht der Punkt normalerweise für ein beliebiges Zeichen. Ließe man den Backslash weg, würde nun jedes Zeichen vor “%20” angesprochen und ebenfalls entfernt. So wird nun zunächst nach einem “.” vor “%20” gesucht und der Gesamtausdruck durch “_” ersetzt – in einem zweiten Durchlauf werden die restlichen “%20” ohne vorangehenden Punkt bearbeitet.

Speichern Sie das Skript unter einem beliebigen Namen, z. B. script. Da sed von der Standardeingabe liest, stellen Sie dem Skript noch ein ls *.mp3 und ein Pipe-Zeichen voran:

huhn@asteroid:~$ ls *.mp3 | sed -f script
01_Welcome_To_The_Cabaret.mp3
02_Natives.mp3
03_Fairytale_In_York.mp3
…

Sind Sie mit den neuen Dateinamen einverstanden und wollen die Dateien entsprechend umbenennen, muss in den Aufruf noch ein weiterer Befehl integriert werden: Das Kommando mv (für englisch “move”). Eine kleine for-Schleife verarbeitet direkt alle Dateien:

huhn@asteroid:~$ for file in *.mp3; do mv -v $file `echo $file | sed -f script`; done
`01.%20Welcome%20To%20The%20Cabaret.mp3' -> `01_Welcome_To_The_Cabaret.mp3'
`02.%20Natives.mp3' -> `02_Natives.mp3'
…

Im Klartext heißt das: Für alle Dateien, die auf “*.mp3” enden, mache Folgendes: Verschiebe diese für den User sichtbar in das Ergebnis der sed-Operation.

Glossar

stdin: Es gibt drei “Standardkanäle” für Ein- und Ausgabe, stdin (Standardeingabe), stdout (Standardausgabe) und stderr (Standardfehlerausgabe). Ein Benutzer hat z. B. die Tastatur als Standardeingabe und den Bildschirm als -ausgabe. Wenn man eine Datei mit zcat (“gzip -d -c”) dekomprimiert, dann wird sie, sofern sie nicht umgeleitet wird, auf den Bildschirm ausgegeben. Leitet man diese mit einer Pipe (|) um, dient sie dem lesenden Programm wiederum als Standardeingabe.
stdout: Es gibt drei “Standardkanäle” für Ein- und Ausgabe, stdin (Standardeingabe), stdout (Standardausgabe) und stderr (Standardfehlerausgabe). Ein Benutzer hat z. B. die Tastatur als Standardeingabe und den Bildschirm als -ausgabe. Wenn man eine Datei mit zcat (“gzip -d -c”) dekomprimiert, dann wird sie, sofern sie nicht umgeleitet wird, auf den Bildschirm ausgegeben. Leitet man diese mit einer Pipe (|) um, dient sie dem lesenden Programm wiederum als Standardeingabe.
Pager: Ein Programm, das die Bildschirmausgabe eines anderen Programms abfängt und seitenweise anzeigt. Die beiden Pager less und more sollten auf jeder Linux-Distribution installiert sein.