Aus LinuxUser 09/2012

Webseiten speichern mit WebHTTrack

© Victoroancea, 123rf.com

Einpacken, bitte!

WebHTTrack sichert komplette Webseiten zum Offline-Lesen auf dem heimischen Rechner und passt dabei Verknüpfungen automatisch an.

Trotz allgegenwärtiger Flatrates gibt es gute Gründe, Webseiten offline zu speichern – sei es fürs Archiv oder um die Inhalte beispielsweise im Intranet zur Verfügung zu stellen. Doch das manuelle Spiegeln ist zeitaufwändig, mühselig und fehlerbehaftet.

Tools wie WebHTTrack [1] helfen dabei und erlauben zudem das komfortable Aktualisieren geladener Inhalte. Unter Ubuntu respektive Linux Mint genügt zur Installation der Software der Aufruf:

$ sudo apt-get install httrack webhttrack

Für Debian, Gentoo, Red Hat, Mandriva, Fedora, FreeBSD und Mac OS X (via MacPorts) gibt es Pakete in den entsprechenden Repositories; auf der Webseite des Projekts stehen darüber hinaus Pakete für Windows zum Download. Sie alle enthalten jeweils die Kommandozeilenvariante namens HTTrack, die sich auch für den Einsatz in Skripten eignet [2], sowie eine HTML-basierte grafische Oberfläche namens WebHTTrack.

Stets zu Diensten

Letztere öffnen Sie entweder über das Startmenü (im K-Menü unter Internet | Webbrowser) oder durch Eingabe von webhttrack im Terminal. Damit starten Sie einen lokalen Webserver auf Port 8080, gleichzeitig öffnet sich im Default-Browser der grafische Assistent, der Sie durch den Vorgang führt (Abbildung 1). Als erstes legen Sie einen Projektnamen und die zugehörige Kategorie fest. Bereits heruntergeladene Seiten listet das Tool gruppiert auf, was insbesondere bei großen Archiven hilft, den Überblick zu behalten. Wo WebHTTrack dieses Archiv anlegt, stellen Sie über das Basisverzeichnis ein, in dem die Software automatisch entsprechende Unterverzeichnisse anlegt.

Abbildung 1: Der Assistent hilft Ihnen beim Erstellen eines neuen Download-Auftrags.
Abbildung 1: Der Assistent hilft Ihnen beim Erstellen eines neuen Download-Auftrags.

Auf der nächsten Seite geben Sie die zu speichernden Webseiten an. Die jeweiligen Adressen tippen Sie entweder direkt in das entsprechende Feld ein oder übergeben sie als Textdatei mit einer URL pro Zeile. HTTrack unterstützt die Protokolle FTP, HTTP und HTTPS. Die Adresse der zu spiegelnden Site geben Sie entweder als Ganzes an (zum Beispiel http://kernel.org) oder beschränken sie auf einzelne Unterverzeichnisse (http://kernel.org/faq/). Möchten Sie eine passwortgeschützte Seite herunterladen, verwenden Sie dafür URL hinzufügen…, da der Dialog auch die Eingabe des Nutzernamens und Passworts ermöglicht.

Detailverliebt

WebHTTrack bietet mehrere Modi an, mit denen es die Inhalte herunterlädt. Ohne Rückfragen läuft die Automatische Web-Site-Kopie durch, wogegen Web-Site-Kopie mit Rückfrage sich redseliger gibt und im Zweifelsfall nachfragt. Mittels Spezielle Dateien laden sichern Sie gezielt einzelne Dateien, ohne darin enthaltene Links zu verfolgen, während Zu allen Links verzweigen sich für das Speichern von Lesezeichen eignet, da es alle Links auf der jeweils ersten Seite sichert. Im Gegensatz dazu lädt Links auf den Seiten testen nichts herunter, sondern prüft lediglich die Verknüpfungen auf Gültigkeit.

Hinter der unscheinbaren Schaltfläche Einstellungen… verbergen sich zahlreiche Optionen, mit denen Sie nahezu jedes Detail einstellen. So legen Sie dort unter anderem fest, in welcher Reihenfolge HTTrack die Dateien lädt. Zudem konfigurieren Sie unter Struktur die Art und Weise, in der das Tool die Dokumente lokal ablegt. Standardmäßig bildet es die exakte Verzeichnisstruktur im jeweiligen Unterverzeichnis ab, aber auch die Unterteilung etwa nach Dateityp ist möglich – beispielsweise, um Bilder und PDF-Dateien sauber zu trennen. Reichen die vorgegebenen Strukturen nicht aus (Abbildung 2), geben Sie benutzerdefinierte Pfade anhand von Variablen an. Um das Umschreiben der Links kümmert sich WebHTTrack, Fehlerseiten oder Passwörter entfernt es auf Wunsch.

Abbildung 2: HTTrack erlaubt es Ihnen, der Seite lokal in einer anderen Verzeichnisstruktur zu speichern als das Original.
Abbildung 2: HTTrack erlaubt es Ihnen, der Seite lokal in einer anderen Verzeichnisstruktur zu speichern als das Original.

Abhängig von der verfügbaren Bandbreite passen Sie mittels Flusskontrolle sowohl die Anzahl gleichzeitiger Verbindungen an, als auch die Timeouts und Wiederholungen im Fehlerfall. Das hilft dabei, auch Webseiten auf langsamen Servern zu sichern, ohne sie mit zahlreichen Zugriffen zu bombardieren. Als eine Art integrierter Airbag dienen die Grenzwerte, mit denen Sie unter anderem die Gesamtgröße, die Übertragungsgeschwindigkeit und die Übertragungszeit limitieren.

Weitergehende Einstellungen halten die Registerkarten MIME-Typen, Browser ID, Spider sowie Protokoll, Index, Cache bereit; sie richten sich jedoch in erster Linie an fortgeschrittene Anwender. Relevant in manchen Netzen hingegen ist das Nutzen eines Proxy, was die Software ebenfalls unterstützt. Inwieweit das Kopieren von Webseiten an legale Grenzen stößt, erläutert der Kasten „Kopieren erlaubt?“

Kopieren erlaubt?

Viele Webmaster treffen Vorkehrungen gegen das Kopieren von Website-Inhalten, indem sie beispielsweise die Anzahl der gleichzeitigen Verbindungen limitieren oder explizit Tools wie WebHTTrack blockieren. Sie sollten diesen Wunsch respektieren und nicht versuchen, durch Tricks doch noch zur gewünschten Kopie zu kommen. Unabhängig von der technischen Machbarkeit gilt auch im Internet: Beachten Sie unbedingt das Urheberrecht und etwaige Lizenzen, und fragen Sie im Zweifelsfall den Autor nach der Erlaubnis zu einer Kopie. Die Autoren von WebHTTrack haben zu diesem Thema auch eine eigene Informationsseite geschaltet [7].

Filtern

Eine mächtige Funktion geben Ihnen die Filterregeln an die Hand, mit denen Sie im Detail einstellen, welche Inhalte Sie herunterladen möchten. Standardmäßig sichert HTTrack alle Seiten unterhalb der genannten URL samt der darin enthaltenen Verknüpfungen. Auf einer Webseite, die auch Download-Links enthält, führt das jedoch beispielsweise dazu, dass die Software neben der eigentlichen Homepage auch zahlreiche Programmdateien speichert. Um das zu verhindern verwenden Sie Filter.

Um beispielsweise alle Verknüpfungen außer solchen zu PDF-Dateien zu laden, lautet der Filter -*.pdf. Um hingegen lediglich die PDFs einer Seite auszusparen, benötigen Sie die Regel -www.linux-user.de/*.pdf. Analog übergeht ein -www.linux-user.de/themes/*.css sämtliche CSS-Dateien, aber auch die darin verlinkten Grafiken.

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDFUmfang: 3 HeftseitenPreis €0,99
(inkl. 19% MwSt.)
KAUFEN
LinuxUser 09/2012 KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS
Deutschland

Hinterlasse einen Kommentar

  E-Mail Benachrichtigung  
Benachrichtige mich zu: