Spieglein, Spieglein an dem Web
w3mir
Keine Scheu vor PDF!
Die Leistungsfähigkeit von w3mir ist recht beachtlich. Auf dem Rekursionstrip durchsucht es nicht nur HTML-Seiten nach Links. Es ist sogar in der Lage, Referenzen in PDF-Dateien zu erkennen und seine Suche auf die dort angegebenen Links ausdehnen. Nur die PDF-Datei anschließend so zu korrigieren, dass die Links darin auf die heruntergeladenen Objekte verweisen, schafft das dafür zuständige w3mfix aus verständlichen Gründen nicht mehr. Mit in HTML-Objekte eingebetteten Skripten, wie Java-Script, wird es gut fertig.
W3mir bewältigt schon jetzt eine ganze Reihe von Problemen, und es lohnt sich, Energie in die Handhabung zu stecken. Da das Tool ständig weiterentwickelt wird, könnten einige Probleme, die zur Zeit noch bestehen [4], bald gelöst sein. Das Paket enthält eine leicht verständliche Dokumentation in HTML und als Man-Page und eine Beispielkonfigurationsdatei, die erklärt, wie man mit w3mir Passwortabfragen überwindet, einen bestimmten Proxy Server nutzt oder Server, die sich gegen eine vollständige Spiegelung sperren, mit einer Verzögerung überlistet.
Glossar
reguläre Ausdrücke
Auch Regular Expressions genannt: Platzhalter für bestimmte Zeichenfolgen. Ein beliebtes Einsatzgebiet sind komplexe Suchvorgänge, zum Beispiel in Texteditoren oder den zahlreichen Unix-Skriptsprachen. Der Aufruf man perlretut zaubert ein kleines Tutorial auf den Bildschirm, das reguläre Ausdrücke kompakt erklärt.
Infos
[1] http://search.cpan.org/dist/libwww-perl/
[2] http://search.cpan.org/dist/MIME-Base64/ oder http://www.perl.com/CPAN/modules/by-module/MIME/
[3] http://gd.tuwien.ac.at/utils/archivers/w3mir/#getting
[4] Die Entwicklungsgeschichte von w3mir - http://gd.tuwien.ac.at/utils/archivers/w3mir/#bugs



