Home / LinuxUser / 2003 / 05 / w3mir

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(161 Punkte bei 4 Stimmen)
Mandriva in Nöten
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Spieglein, Spieglein an dem Web

w3mir

Unendliche Weiten

Nicht nur in den Weiten des Netzes kann man sich verlieren: Manchmal entpuppt sich auch eine vermeintlich kleine Web-Site als viel inhaltsreicher als man gedacht hätte. Wenn sich dahinter ein gigantischer Komplex mit Verzeichnissen, Unterverzeichnissen und weiteren Unterverzeichnissen verbirgt, ist die Festplatte schnell voll – vor allem, wenn man mit vielen Also-Klauseln arbeitet. Ein probates Mittel, die Rekursionstiefe zu beschränken, ist der Einsatz einer geschickt formulierten Ignore-Regel. So sorgt z. B.

Ignore: / */*/*/*/

dafür, dass w3mir alle URLs mit über fünf Slashes links liegen lässt. Wieviel zieht w3mir also mit dieser Ignore-Regel von unserem Götterhimmel? Nicht eine einzige Datei! Statt dessen beschwert er sich über eine inkonsistente Konfiguration. Kein Wunder, wo doch das "http:" schon von zwei Schrägstrichen gefolgt ist, was man sehr leicht beim Zählen übersieht… Die vorgestellte Lösung zur Download-Drosselung funktioniert allerdings nur bei hierarchisch organisierten Web-Sites. Leider scheint es in w3mir im Gegensatz zu wget keine einfache Option zu geben, die das Verfolgen von internen Verweisen irgendwie eingrenzt. Nur einen Teil einer flach organisierten Web-Site zu spiegeln, z.B. nur alle Seiten, auf die die Einstiegsseite verweist, ist damit unmöglich.

Reguläre Freunde

Neben den einfachen Ignore- und Fetch-Klauseln, in denen man nur die Unix-Wildcards * und ? sowie Zeichenklassen der Form [x-z] verwenden kann, versteht w3mir auch reguläre Ausdrücke. Mit den Klauseln Ignore-RE und Fetch-RE lassen sich nach Herzenslust reguläre Ausdrücke in der Syntax von Perl formulieren, die nachher nicht einmal Sie selbst mehr lesen können, die dafür aber unheimlich mächtig sind. Die Man-Page im w3mir-Paket geht darauf ausführlich ein.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

Hits
Wertung: 0 Punkte (0 Stimmen)

Schlecht Gut

Infos zur Publikation

Infos zur Publikation

LinuxUser 06/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...