Besucher im Blick

Auswertung von Webserver-Logdateien

01.05.2004
Webserver sind äußerst gesprächig. Sie protokollieren penibel jede Anfrage und jeden Zugriff als graue Zahlenkolonnen. Mit der richtigen Software werden daraus aussagekräftige Grafiken.

Jeder Webserver schreibt mit, wenn seine HTML-Dateien übers Internet abgerufen werden. Er protokolliert Zeitpunkt, Filenamen und viele andere Daten im Detail. Deshalb eignen sich Logdateien kaum als angenehme Lektüre. Weblog-Programme verarbeiten solche Files und bereiten das Ergebnis grafisch auf. So erhalten Sie schnell eine Übersicht über die Zugriffe auf den eigenen Webserver. Dabei können Sie aus einer Fülle kostenloser Weblog-Analyzer wählen.

Formatwirrwar

Bei den meisten Webservern können Sie einstellen, welche Daten sie protokollieren – vorausgesetzt Sie sind Ihr eigener Provider oder dürfen zumindest die Serverkonfiguration bestimmen. Von Haus aus benutzen die meisten Server ein recht ähnliches Format für ihre Logdateien.

Die einfachste Variante ist das Common Log File Format (CLF). Es enthält zum Beispiel die IP-Adresse des anfragenden Rechners, die Anzahl übertragener Bytes und Datum und Uhrzeit des Zugriffs (vgl. Abbildung 1). Um einige Einschränkungen des CLF-Formats zu umgehen, wurden verschiedene Erweiterungen entwickelt. Beispiele hierfür sind das Combined Log File Format oder das Extended Log File Format (ELFF) des World Wide Web Consortium (W3C). Hinzugekommen sind unter anderem die Kennung des Browsers (User-Agent) und die vom Benutzer zuvor besuchte Webseite, der so genannte Referer. Unter Linux finden sich die Logdateien meist im Verzeichnis /var/log und heißen access.log.

Abbildung 1: Ein Beispiel einer Logdatei des freien Webservers Apache – eine komplette Zeile ist blau hervorgehoben.

Damit finden Sie häufig verwendete Browser und können die Webseiten anschließend für diese optimieren. Die Referer auszuwerten ist vor allem bei Werbebannern interessant, denn sie zeigen, wie der Surfer auf der eigenen Site gelandet ist. Referer-Informationen helfen bei der Analyse von Suchmaschinenanfragen: Die URLs enthalten die Suchbegriffe, über die Surfer auf die eigenen Seiten gelangt sind.

Der Systemverwalter kann festlegen, dass der Webserver regelmäßig ein neues Logfile beginnt und das alte unter einem anderen Namen speichert. Optional komprimiert er die alte Logdatei im Gzip-Format, um Platz zu sparen. Einige Analyzer können direkt mit solchen Dateien umgehen, andere müssen Sie vorher manuell entpacken.

Mix it

Mit den Daten eines Logfiles lässt sich nun eine Statistik erstellen. Sind Sie an der Anzahl der Abrufe einer bestimmten Seite interessiert, zählen Sie einfach alle Logfile-Zeilen, die einer Anforderung dieser Seite entsprechen. Da dies schon bei kleineren Internetauftritten sehr umständlich ist, existieren zahlreiche Programme, die eine solche Sisyphusarbeit übernehmen.

Um die Fülle der verfügbaren Werkzeuge zu reduzieren, beschränken wir uns auf Analyzer, die als Eingabe die Log-Datei(en) erwarten.und auch auf einem anderen Rechner als dem eigentlichen Webserver laufen können.

Den meisten Analyzern ist gemein, dass sie nur wenig Dokumentation mitbringen. Da sie zudem über Konfigurationsdateien gesteuert werden, ist etwas Experimentierfreude angesagt. Es handelt sich durchweg um Kommandozeilenprogramme, die auf eine grafische Benutzeroberfläche verzichten.

Alle Analyzer liefern als Grunddaten die Gesamtzahl der Zugriffe und das übertragene Datenvolumen. Diese Informationen sind essentiell, da die meisten Hosting-Pakete eine obere Grenze für das Übertragungsvolumen festsetzen. Überschreiten Sie diese, kann es schnell teuer werden. Doch Vorsicht: Die hier betrachteten Logfiles halten nur das Übertragungsvolumen des Webservers fest. Weitere Datenflüsse, zum Beispiel der eingerichteten von E-Mail oder FTP-Zugriffen erfassen sie nicht.

Ebenfalls zu den Basisinformationen gehört eine Aufstellung der meistbesuchten Seiten. Daran lesen Sie die Beliebtheit einzelner Seiten oder Themen ab. Eine solche Liste sollten Sie auch im Hinblick auf die Rechnersicherheit durchsehen: Sind in ihr Dateien aufgeführt, die eigentlich nicht über das WWW lesbar sein sollten, ist dies ein Hinweis auf einen Einbruch oder Missbrauch.

Bei der Auswertung der besuchten Seiten unterscheiden die Programme zwischen Hits und Pageviews (auch Page Impressions). Ein Hit bezieht sich auf die Anforderung eines einzelnen Elementes, wie zum Beispiel einer Grafik. Besteht eine Seite aus drei Bildern und einer HTML-Datei, führt ein Abruf der Seite (ein Pageview) also zu insgesamt vier Hits. In diesem Zusammenhang spielt noch der Begriff des Visit (auch Session) eine Rolle: Bei einem Visit geht man davon aus, dass alle Anfragen von einer IP-Adresse in einem bestimmten Zeitraum (zum Beispiel 30 Minuten) von ein und demselben Benutzer stammen. Da Internet-Provider IP-Adressen oft dynamisch vergeben, ist diese Zuordnung noch die beste Näherung, will man nicht zu komplizierteren Mitteln wie Cookies greifen.

Wichtig, aber längst nicht mit allen Analyzern möglich, ist die Auflösung von IP-Adressen in deren lesbare Domain- bzw. Rechnernamen. Die dabei gleichzeitig ermittelte Top-Level-Domain lässt Rückschlüsse auf das Land zu, aus die Anfrage kam. Wer sein Angebot mehrsprachig führt, dürfte an diesen Informationen interessiert sein.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Zugriffsdaten auswerten mit Webalizer
    Wer heutzutage eine erfolgreiche Webseite betreiben will, muss nicht nur auf Barrierefreiheit, Browserunabhängigkeit und Suchmaschinenoptimierung achten, sondern auch die Besuche auswerten. Als Klassiker der Logfile-Analyse gilt Webalizer.
  • Vier alternative Webserver im Vergleich
    Monkey HTTP Daemon, Hiawatha, Lighttpd und Thttpd positionieren sich als schlanke, schnelle und pfiffige Alternativen zum Webserver-Monster Apache.
Kommentare

Infos zur Publikation

title_2014_10

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Schnell Multi-Boot-Medien mit MultiCD erstellen
Schnell Multi-Boot-Medien mit MultiCD erstellen
Tim Schürmann, 24.06.2014 12:40, 0 Kommentare

Wer mehrere nützliche Live-Systeme auf eine DVD brennen möchte, kommt mit den Startmedienerstellern der Distributionen nicht besonders weit: Diese ...

Aktuelle Fragen

Windows 8 startet nur mit externer Festplatte
Anne La, 10.09.2014 17:25, 4 Antworten
Hallo Leute, also, ich bin auf folgendes Problem gestoßen: Ich habe Ubuntu 14.04 auf meiner...
Videoüberwachung mit Zoneminder
Heinz Becker, 10.08.2014 17:57, 0 Antworten
Hallo, ich habe den ZONEMINDER erfolgreich installiert. Das Bild erscheint jedoch nicht,...
internes Wlan und USB-Wlan-Srick
Gerhard Blobner, 04.08.2014 15:20, 2 Antworten
Hallo Linux-Forum: ich bin ein neuer Linux-User (ca. 25 Jahre Windows) und bin von WIN 8 auf Mint...
Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...
o2 surfstick software für ubuntu?
daniel soltek, 15.07.2014 18:27, 1 Antworten
hallo zusammen, habe mir einen o2 surfstick huawei bestellt und gerade festgestellt, das der nic...