Spieglein, Spieglein an dem Web
w3mir
Unendliche Weiten
Nicht nur in den Weiten des Netzes kann man sich verlieren: Manchmal entpuppt sich auch eine vermeintlich kleine Web-Site als viel inhaltsreicher als man gedacht hätte. Wenn sich dahinter ein gigantischer Komplex mit Verzeichnissen, Unterverzeichnissen und weiteren Unterverzeichnissen verbirgt, ist die Festplatte schnell voll – vor allem, wenn man mit vielen Also-Klauseln arbeitet. Ein probates Mittel, die Rekursionstiefe zu beschränken, ist der Einsatz einer geschickt formulierten Ignore-Regel. So sorgt z. B.
Ignore: / */*/*/*/
dafür, dass w3mir alle URLs mit über fünf Slashes links liegen lässt. Wieviel zieht w3mir also mit dieser Ignore-Regel von unserem Götterhimmel? Nicht eine einzige Datei! Statt dessen beschwert er sich über eine inkonsistente Konfiguration. Kein Wunder, wo doch das "http:" schon von zwei Schrägstrichen gefolgt ist, was man sehr leicht beim Zählen übersieht… Die vorgestellte Lösung zur Download-Drosselung funktioniert allerdings nur bei hierarchisch organisierten Web-Sites. Leider scheint es in w3mir im Gegensatz zu wget keine einfache Option zu geben, die das Verfolgen von internen Verweisen irgendwie eingrenzt. Nur einen Teil einer flach organisierten Web-Site zu spiegeln, z.B. nur alle Seiten, auf die die Einstiegsseite verweist, ist damit unmöglich.
Reguläre Freunde
Neben den einfachen Ignore- und Fetch-Klauseln, in denen man nur die Unix-Wildcards * und ? sowie Zeichenklassen der Form [x-z] verwenden kann, versteht w3mir auch reguläre Ausdrücke. Mit den Klauseln Ignore-RE und Fetch-RE lassen sich nach Herzenslust reguläre Ausdrücke in der Syntax von Perl formulieren, die nachher nicht einmal Sie selbst mehr lesen können, die dafür aber unheimlich mächtig sind. Die Man-Page im w3mir-Paket geht darauf ausführlich ein.



