Besucher im Blick

Auswertung von Webserver-Logdateien

01.05.2004
Webserver sind äußerst gesprächig. Sie protokollieren penibel jede Anfrage und jeden Zugriff als graue Zahlenkolonnen. Mit der richtigen Software werden daraus aussagekräftige Grafiken.

Jeder Webserver schreibt mit, wenn seine HTML-Dateien übers Internet abgerufen werden. Er protokolliert Zeitpunkt, Filenamen und viele andere Daten im Detail. Deshalb eignen sich Logdateien kaum als angenehme Lektüre. Weblog-Programme verarbeiten solche Files und bereiten das Ergebnis grafisch auf. So erhalten Sie schnell eine Übersicht über die Zugriffe auf den eigenen Webserver. Dabei können Sie aus einer Fülle kostenloser Weblog-Analyzer wählen.

Formatwirrwar

Bei den meisten Webservern können Sie einstellen, welche Daten sie protokollieren – vorausgesetzt Sie sind Ihr eigener Provider oder dürfen zumindest die Serverkonfiguration bestimmen. Von Haus aus benutzen die meisten Server ein recht ähnliches Format für ihre Logdateien.

Die einfachste Variante ist das Common Log File Format (CLF). Es enthält zum Beispiel die IP-Adresse des anfragenden Rechners, die Anzahl übertragener Bytes und Datum und Uhrzeit des Zugriffs (vgl. Abbildung 1). Um einige Einschränkungen des CLF-Formats zu umgehen, wurden verschiedene Erweiterungen entwickelt. Beispiele hierfür sind das Combined Log File Format oder das Extended Log File Format (ELFF) des World Wide Web Consortium (W3C). Hinzugekommen sind unter anderem die Kennung des Browsers (User-Agent) und die vom Benutzer zuvor besuchte Webseite, der so genannte Referer. Unter Linux finden sich die Logdateien meist im Verzeichnis /var/log und heißen access.log.

Abbildung 1: Ein Beispiel einer Logdatei des freien Webservers Apache – eine komplette Zeile ist blau hervorgehoben.

Damit finden Sie häufig verwendete Browser und können die Webseiten anschließend für diese optimieren. Die Referer auszuwerten ist vor allem bei Werbebannern interessant, denn sie zeigen, wie der Surfer auf der eigenen Site gelandet ist. Referer-Informationen helfen bei der Analyse von Suchmaschinenanfragen: Die URLs enthalten die Suchbegriffe, über die Surfer auf die eigenen Seiten gelangt sind.

Der Systemverwalter kann festlegen, dass der Webserver regelmäßig ein neues Logfile beginnt und das alte unter einem anderen Namen speichert. Optional komprimiert er die alte Logdatei im Gzip-Format, um Platz zu sparen. Einige Analyzer können direkt mit solchen Dateien umgehen, andere müssen Sie vorher manuell entpacken.

Mix it

Mit den Daten eines Logfiles lässt sich nun eine Statistik erstellen. Sind Sie an der Anzahl der Abrufe einer bestimmten Seite interessiert, zählen Sie einfach alle Logfile-Zeilen, die einer Anforderung dieser Seite entsprechen. Da dies schon bei kleineren Internetauftritten sehr umständlich ist, existieren zahlreiche Programme, die eine solche Sisyphusarbeit übernehmen.

Um die Fülle der verfügbaren Werkzeuge zu reduzieren, beschränken wir uns auf Analyzer, die als Eingabe die Log-Datei(en) erwarten.und auch auf einem anderen Rechner als dem eigentlichen Webserver laufen können.

Den meisten Analyzern ist gemein, dass sie nur wenig Dokumentation mitbringen. Da sie zudem über Konfigurationsdateien gesteuert werden, ist etwas Experimentierfreude angesagt. Es handelt sich durchweg um Kommandozeilenprogramme, die auf eine grafische Benutzeroberfläche verzichten.

Alle Analyzer liefern als Grunddaten die Gesamtzahl der Zugriffe und das übertragene Datenvolumen. Diese Informationen sind essentiell, da die meisten Hosting-Pakete eine obere Grenze für das Übertragungsvolumen festsetzen. Überschreiten Sie diese, kann es schnell teuer werden. Doch Vorsicht: Die hier betrachteten Logfiles halten nur das Übertragungsvolumen des Webservers fest. Weitere Datenflüsse, zum Beispiel der eingerichteten von E-Mail oder FTP-Zugriffen erfassen sie nicht.

Ebenfalls zu den Basisinformationen gehört eine Aufstellung der meistbesuchten Seiten. Daran lesen Sie die Beliebtheit einzelner Seiten oder Themen ab. Eine solche Liste sollten Sie auch im Hinblick auf die Rechnersicherheit durchsehen: Sind in ihr Dateien aufgeführt, die eigentlich nicht über das WWW lesbar sein sollten, ist dies ein Hinweis auf einen Einbruch oder Missbrauch.

Bei der Auswertung der besuchten Seiten unterscheiden die Programme zwischen Hits und Pageviews (auch Page Impressions). Ein Hit bezieht sich auf die Anforderung eines einzelnen Elementes, wie zum Beispiel einer Grafik. Besteht eine Seite aus drei Bildern und einer HTML-Datei, führt ein Abruf der Seite (ein Pageview) also zu insgesamt vier Hits. In diesem Zusammenhang spielt noch der Begriff des Visit (auch Session) eine Rolle: Bei einem Visit geht man davon aus, dass alle Anfragen von einer IP-Adresse in einem bestimmten Zeitraum (zum Beispiel 30 Minuten) von ein und demselben Benutzer stammen. Da Internet-Provider IP-Adressen oft dynamisch vergeben, ist diese Zuordnung noch die beste Näherung, will man nicht zu komplizierteren Mitteln wie Cookies greifen.

Wichtig, aber längst nicht mit allen Analyzern möglich, ist die Auflösung von IP-Adressen in deren lesbare Domain- bzw. Rechnernamen. Die dabei gleichzeitig ermittelte Top-Level-Domain lässt Rückschlüsse auf das Land zu, aus die Anfrage kam. Wer sein Angebot mehrsprachig führt, dürfte an diesen Informationen interessiert sein.

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

  • Zugriffsdaten auswerten mit Webalizer
    Wer heutzutage eine erfolgreiche Webseite betreiben will, muss nicht nur auf Barrierefreiheit, Browserunabhängigkeit und Suchmaschinenoptimierung achten, sondern auch die Besuche auswerten. Als Klassiker der Logfile-Analyse gilt Webalizer.
  • Vier alternative Webserver im Vergleich
    Monkey HTTP Daemon, Hiawatha, Lighttpd und Thttpd positionieren sich als schlanke, schnelle und pfiffige Alternativen zum Webserver-Monster Apache.
Kommentare

Infos zur Publikation

LU 01/2015: E-Books im Griff

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

PCLinuxOS Version 2014.08 "FullMonty" Umstellung auf deutsch
Karl-Heinz Welz, 19.12.2014 09:55, 3 Antworten
Hallo, liebe Community, ich bin 63 Jahre alt und möchte jetzt nach Jahrzehnten Windows zu Linux...
ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...
Steuern mit Linux
Siegfried Markner, 01.12.2014 11:56, 2 Antworten
Welches Linux eignet sich am besten für Steuerungen.