AA_boxen_victoroancea_123rf_9463576.jpg

© Victoroancea, 123rf.com

Einpacken, bitte!

Webseiten speichern mit WebHTTrack

20.08.2012
WebHTTrack sichert komplette Webseiten zum Offline-Lesen auf dem heimischen Rechner und passt dabei Verknüpfungen automatisch an.

Trotz allgegenwärtiger Flatrates gibt es gute Gründe, Webseiten offline zu speichern – sei es fürs Archiv oder um die Inhalte beispielsweise im Intranet zur Verfügung zu stellen. Doch das manuelle Spiegeln ist zeitaufwändig, mühselig und fehlerbehaftet.

Tools wie WebHTTrack [1] helfen dabei und erlauben zudem das komfortable Aktualisieren geladener Inhalte. Unter Ubuntu respektive Linux Mint genügt zur Installation der Software der Aufruf:

$ sudo apt-get install httrack webhttrack

Für Debian, Gentoo, Red Hat, Mandriva, Fedora, FreeBSD und Mac OS X (via MacPorts) gibt es Pakete in den entsprechenden Repositories; auf der Webseite des Projekts stehen darüber hinaus Pakete für Windows zum Download. Sie alle enthalten jeweils die Kommandozeilenvariante namens HTTrack, die sich auch für den Einsatz in Skripten eignet [2], sowie eine HTML-basierte grafische Oberfläche namens WebHTTrack.

Stets zu Diensten

Letztere öffnen Sie entweder über das Startmenü (im K-Menü unter Internet | Webbrowser) oder durch Eingabe von webhttrack im Terminal. Damit starten Sie einen lokalen Webserver auf Port 8080, gleichzeitig öffnet sich im Default-Browser der grafische Assistent, der Sie durch den Vorgang führt (Abbildung 1). Als erstes legen Sie einen Projektnamen und die zugehörige Kategorie fest. Bereits heruntergeladene Seiten listet das Tool gruppiert auf, was insbesondere bei großen Archiven hilft, den Überblick zu behalten. Wo WebHTTrack dieses Archiv anlegt, stellen Sie über das Basisverzeichnis ein, in dem die Software automatisch entsprechende Unterverzeichnisse anlegt.

Abbildung 1: Der Assistent hilft Ihnen beim Erstellen eines neuen Download-Auftrags.

Auf der nächsten Seite geben Sie die zu speichernden Webseiten an. Die jeweiligen Adressen tippen Sie entweder direkt in das entsprechende Feld ein oder übergeben sie als Textdatei mit einer URL pro Zeile. HTTrack unterstützt die Protokolle FTP, HTTP und HTTPS. Die Adresse der zu spiegelnden Site geben Sie entweder als Ganzes an (zum Beispiel http://kernel.org) oder beschränken sie auf einzelne Unterverzeichnisse (http://kernel.org/faq/). Möchten Sie eine passwortgeschützte Seite herunterladen, verwenden Sie dafür URL hinzufügen..., da der Dialog auch die Eingabe des Nutzernamens und Passworts ermöglicht.

Detailverliebt

WebHTTrack bietet mehrere Modi an, mit denen es die Inhalte herunterlädt. Ohne Rückfragen läuft die Automatische Web-Site-Kopie durch, wogegen Web-Site-Kopie mit Rückfrage sich redseliger gibt und im Zweifelsfall nachfragt. Mittels Spezielle Dateien laden sichern Sie gezielt einzelne Dateien, ohne darin enthaltene Links zu verfolgen, während Zu allen Links verzweigen sich für das Speichern von Lesezeichen eignet, da es alle Links auf der jeweils ersten Seite sichert. Im Gegensatz dazu lädt Links auf den Seiten testen nichts herunter, sondern prüft lediglich die Verknüpfungen auf Gültigkeit.

Hinter der unscheinbaren Schaltfläche Einstellungen... verbergen sich zahlreiche Optionen, mit denen Sie nahezu jedes Detail einstellen. So legen Sie dort unter anderem fest, in welcher Reihenfolge HTTrack die Dateien lädt. Zudem konfigurieren Sie unter Struktur die Art und Weise, in der das Tool die Dokumente lokal ablegt. Standardmäßig bildet es die exakte Verzeichnisstruktur im jeweiligen Unterverzeichnis ab, aber auch die Unterteilung etwa nach Dateityp ist möglich – beispielsweise, um Bilder und PDF-Dateien sauber zu trennen. Reichen die vorgegebenen Strukturen nicht aus (Abbildung 2), geben Sie benutzerdefinierte Pfade anhand von Variablen an. Um das Umschreiben der Links kümmert sich WebHTTrack, Fehlerseiten oder Passwörter entfernt es auf Wunsch.

Abbildung 2: HTTrack erlaubt es Ihnen, der Seite lokal in einer anderen Verzeichnisstruktur zu speichern als das Original.

Abhängig von der verfügbaren Bandbreite passen Sie mittels Flusskontrolle sowohl die Anzahl gleichzeitiger Verbindungen an, als auch die Timeouts und Wiederholungen im Fehlerfall. Das hilft dabei, auch Webseiten auf langsamen Servern zu sichern, ohne sie mit zahlreichen Zugriffen zu bombardieren. Als eine Art integrierter Airbag dienen die Grenzwerte, mit denen Sie unter anderem die Gesamtgröße, die Übertragungsgeschwindigkeit und die Übertragungszeit limitieren.

Weitergehende Einstellungen halten die Registerkarten MIME-Typen, Browser ID, Spider sowie Protokoll, Index, Cache bereit; sie richten sich jedoch in erster Linie an fortgeschrittene Anwender. Relevant in manchen Netzen hingegen ist das Nutzen eines Proxy, was die Software ebenfalls unterstützt. Inwieweit das Kopieren von Webseiten an legale Grenzen stößt, erläutert der Kasten "Kopieren erlaubt?"

Kopieren erlaubt?

Viele Webmaster treffen Vorkehrungen gegen das Kopieren von Website-Inhalten, indem sie beispielsweise die Anzahl der gleichzeitigen Verbindungen limitieren oder explizit Tools wie WebHTTrack blockieren. Sie sollten diesen Wunsch respektieren und nicht versuchen, durch Tricks doch noch zur gewünschten Kopie zu kommen. Unabhängig von der technischen Machbarkeit gilt auch im Internet: Beachten Sie unbedingt das Urheberrecht und etwaige Lizenzen, und fragen Sie im Zweifelsfall den Autor nach der Erlaubnis zu einer Kopie. Die Autoren von WebHTTrack haben zu diesem Thema auch eine eigene Informationsseite geschaltet [7].

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Aktuelle Software
  • Neues auf der Heft-DVD
  • Software
  • Software
    Im Quartalsrhythmus erscheinen viele Programme in neuer Version. Eine Auswahl stellen wir regelmäßig vor. Auf der Heft-DVD finden Sie die passenden Pakete und Installationshinweise. (Teil 1/2)
  • Aktuelle Software im Kurztest
    Als umfangreiche IDE für alle, die primär in C, Perl, PHP oder HTML entwickeln, bietet <s>Griffon 1.6.0<s> zahlreiche Einstellungen und viele Funktionen, die man sonst nur von größeren Lösungen kennt.Als einfache, aber nützliche Oberfläche für den Webseiten-Kopierer HTTrack fasst <s>Httraqt 1.1.0<s> dessen wichtigste Einstellungen in einer komfortablen, intuitiv bedienbaren Oberfläche zusammen.Die Zahl der von Linux unterstützten Archiv- und Kompressionsformate wird immer umfangreicher. <s>Peazip 5.0<s> erspart die Mühe, hier mit zahlreichen Kommandozeilenprogrammen jonglieren zu müssen.Organisieren Sie Ihre Musiksammlung in Verzeichnissen, dann ist <s>Pogo 0.8.2<s> das Richtige für Sie. Es bietet eine einfache Bedienung, und Sie können im Handumdrehen ganze Alben in die Wiedergabeliste übernehmen.
Kommentare

Infos zur Publikation

LU 11/2014: VIDEOS BEARBEITEN

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Artikelsuche
Erwin Ruitenberg, 09.10.2014 07:51, 1 Antworten
Ich habe seit einige Jahre ein Dugisub LinuxUser. Dann weiß ich das irgendwann ein bestimmtes Art...
Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...