Filtern

Eine mächtige Funktion geben Ihnen die Filterregeln an die Hand, mit denen Sie im Detail einstellen, welche Inhalte Sie herunterladen möchten. Standardmäßig sichert HTTrack alle Seiten unterhalb der genannten URL samt der darin enthaltenen Verknüpfungen. Auf einer Webseite, die auch Download-Links enthält, führt das jedoch beispielsweise dazu, dass die Software neben der eigentlichen Homepage auch zahlreiche Programmdateien speichert. Um das zu verhindern verwenden Sie Filter.

Um beispielsweise alle Verknüpfungen außer solchen zu PDF-Dateien zu laden, lautet der Filter -*.pdf. Um hingegen lediglich die PDFs einer Seite auszusparen, benötigen Sie die Regel -www.linux-user.de/*.pdf. Analog übergeht ein -www.linux-user.de/themes/*.css sämtliche CSS-Dateien, aber auch die darin verlinkten Grafiken.

Statt einer Negativliste definieren Sie alternativ eine Positivliste, um die zu sichernden Inhalte explizit zu benennen: So führt der Filter

-* +*.htm* +www.linux-user.de/*.pdf

dazu, dass die Software von der Seite nur PDF-Dokumente speichert. Das einleitende -* schließt alle nicht genannten Dateitypen aus, aber um die einzelnen Seiten auf Links zu parsen, müssen Sie zudem +*.htm* angeben.

Filter arbeitet die Software dabei jeweils von links nach rechts ab, wobei der zuletzt genannte Eintrag die höchste Priorität besitzt. Eine Regel wie

-* +linux-user.de/*.htm* -www.linux-user.de/*.html5

führt dazu, dass die Software Verknüpfungen auf .htm und .html lädt, nicht jedoch solche auf .html5. WebHTTrack geht dabei intelligent vor und schreibt Links auf nicht geladene Dateien direkt auf die Online-Version um. Schließen Sie beispielsweise die PDFs vom Download aus, führt ein Klick auf den entsprechenden Link zur Online-Version – das eignet sich beispielsweise für häufig aktualisierte Inhalte.

Zusätzlich helfen Filter dabei, Größenbeschränkungen festzulegen. So führt die Regel -*.zip[>1024] -*.pdf[<2048] dazu, dass die Applikation keine Verknüpfungen auf ZIP-Dateien über 1 MByte lädt, PDF-Dokumente jedoch nur auslässt, wenn sie mehr als 2 MByte umfassen. Die Angaben lassen sich auch kombinieren: So berücksichtigt -*.png[<5>100] nur PNG-Dateien zwischen 5 und 100 KByte, womit es sowohl Thumbnails als auch zu große Bilder ausspart. Für Experten stellt WebHTTrack sogar die Möglichkeit bereit, Dateien anhand des MIME-Typs auszuwählen und reguläre Ausdrücke zu verwenden, um die Filter zu verfeinern.

Auf los geht's los!

Haben Sie die Adressen, Filter und weitere Optionen konfiguriert, weisen Sie WebHTTrack zum Schluss mit einem Klick auf Start >> an, den Download zu beginnen. Je nach Umfang und Komplexität der Seite nimmt dieser Vorgang eine ganze Weile in Anspruch, wobei ein Statusfenster Sie über den Fortschritt auf dem Laufenden hält.

Das Programm verfolgt jeden einzelnen Link auf den angegebenen Adressen, lädt die gewünschten Inhalte anhand der Filtervorgaben herunter und schreibt die Dateien entsprechend um. Probleme ergeben sich dabei allerdings bei Seiten mit Flash-Inhalten, CGI-Skripten, Java-Applets oder Javascript, da HTTrack diese nicht immer problemlos analysiert. Sofern möglich, versucht das Tool jedoch, den Dateityp zu erkennen und entsprechend umzubenennen, beispielsweise bei Content-Management-Systemen, die oftmals über PHP-URLs reguläre HTML-Dateien ausliefern.

Nach Abschluss des Downloads bietet der Assistent einen Blick in die Protokolldatei an, um zu verifizieren, dass alles funktioniert hat. Dort finden Sie Angaben zu etwaigen Fehlern, fehlenden Dateien und andere Problemen. Einen Überblick über alle lokal gespiegelten Seiten erhalten Sie, indem Sie die Datei index.html im Basisverzeichnis öffnen – hier kommen die bereits erwähnten Kategorien wieder ins Spiel, denn sie dienen der Gliederung des Archivs (Abbildung 3).

Abbildung 3: Mit der Zeit entsteht eine kleine Bibliothek lokal gespeicherter Seiten, welche die Software übersichtlich verwaltet.

Neben dem einmaligen Download unterstützt WebHTTrack auch das Aktualisieren bereits geladener Inhalte. Zu diesem Zweck legt es einen lokalen Cache an und versucht bei Auswahl des Modus * Vorhandene Kopie aktualisieren nur solche Dateien zu laden, die sich seit dem letzten Aufruf geändert haben. Elemente, die auf dem Server nicht mehr existieren, löscht das Programm dabei, was sich allerdings durch die entsprechende Programmoption deaktivieren lässt.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Aktuelle Software
  • Neues auf der Heft-DVD
  • Software
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise. (Teil 1/2)
  • Aktuelle Software im Kurztest
    Als umfangreiche IDE für alle, die primär in C, Perl, PHP oder HTML entwickeln, bietet <s>Griffon 1.6.0<s> zahlreiche Einstellungen und viele Funktionen, die man sonst nur von größeren Lösungen kennt.Als einfache, aber nützliche Oberfläche für den Webseiten-Kopierer HTTrack fasst <s>Httraqt 1.1.0<s> dessen wichtigste Einstellungen in einer komfortablen, intuitiv bedienbaren Oberfläche zusammen.Die Zahl der von Linux unterstützten Archiv- und Kompressionsformate wird immer umfangreicher. <s>Peazip 5.0<s> erspart die Mühe, hier mit zahlreichen Kommandozeilenprogrammen jonglieren zu müssen.Organisieren Sie Ihre Musiksammlung in Verzeichnissen, dann ist <s>Pogo 0.8.2<s> das Richtige für Sie. Es bietet eine einfache Bedienung, und Sie können im Handumdrehen ganze Alben in die Wiedergabeliste übernehmen.
Kommentare

Infos zur Publikation

LU 12/2017: Perfekte Videos

Digitale Ausgabe: Preis € 5,95
(inkl. 19% MwSt.)

LinuxUser erscheint monatlich und kostet 5,95 Euro (mit DVD 8,50 Euro). Weitere Infos zum Heft finden Sie auf der Homepage.

Das Jahresabo kostet ab 86,70 Euro. Details dazu finden Sie im Computec-Shop. Im Probeabo erhalten Sie zudem drei Ausgaben zum reduzierten Preis.

Bei Google Play finden Sie digitale Ausgaben für Tablet & Smartphone.

HINWEIS ZU PAYPAL: Die Zahlung ist ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!

Stellenmarkt

Aktuelle Fragen

EasyBCD/NeoGrub
Wolfgang Conrad, 17.12.2017 11:40, 0 Antworten
Hallo zusammen, benutze unter Windows 7 den EasyBCD bzw. NEOgrub, um LinuxMint aus einer ISO Dat...
Huawei
Pit Hampelmann, 13.12.2017 11:35, 2 Antworten
Welches Smartphone ist für euch momentan das beste? Sehe ja die Huawei gerade ganz weit vorne. Bi...
Fernstudium Informatik
Joe Cole, 12.12.2017 10:36, 2 Antworten
Hallo! habe früher als ich 13 Jahre angefangen mit HTML und später Java zu programmieren. Weit...
Installation Linux mint auf stick
Reiner Schulz, 10.12.2017 17:34, 3 Antworten
Hallo, ich hab ein ISO-image mit Linux Mint auf einem Stick untergebracht Jetzt kann ich auch...
Canon Maxify 2750 oder ähnlicher Drucker
Hannes Richert, 05.12.2017 20:14, 4 Antworten
Hallo, leider hat Canon mich weiterverwiesen, weil sie Linux nicht supporten.. deshalb hier die...