Home / LinuxUser / 2004 / 05 / Auswertung von Webserver-Logdateien

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Mandriva gibt Distribution in die Hände der Community
(268 Punkte bei 24 Stimmen)
Neues vom Systemd
(161 Punkte bei 4 Stimmen)
Mandriva in Nöten
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Besucher im Blick

Auswertung von Webserver-Logdateien

01.05.2004 Webserver sind äußerst gesprächig. Sie protokollieren penibel jede Anfrage und jeden Zugriff als graue Zahlenkolonnen. Mit der richtigen Software werden daraus aussagekräftige Grafiken.

Jeder Webserver schreibt mit, wenn seine HTML-Dateien übers Internet abgerufen werden. Er protokolliert Zeitpunkt, Filenamen und viele andere Daten im Detail. Deshalb eignen sich Logdateien kaum als angenehme Lektüre. Weblog-Programme verarbeiten solche Files und bereiten das Ergebnis grafisch auf. So erhalten Sie schnell eine Übersicht über die Zugriffe auf den eigenen Webserver. Dabei können Sie aus einer Fülle kostenloser Weblog-Analyzer wählen.

Formatwirrwar

Bei den meisten Webservern können Sie einstellen, welche Daten sie protokollieren – vorausgesetzt Sie sind Ihr eigener Provider oder dürfen zumindest die Serverkonfiguration bestimmen. Von Haus aus benutzen die meisten Server ein recht ähnliches Format für ihre Logdateien.

Die einfachste Variante ist das Common Log File Format (CLF). Es enthält zum Beispiel die IP-Adresse des anfragenden Rechners, die Anzahl übertragener Bytes und Datum und Uhrzeit des Zugriffs (vgl. Abbildung 1). Um einige Einschränkungen des CLF-Formats zu umgehen, wurden verschiedene Erweiterungen entwickelt. Beispiele hierfür sind das Combined Log File Format oder das Extended Log File Format (ELFF) des World Wide Web Consortium (W3C). Hinzugekommen sind unter anderem die Kennung des Browsers (User-Agent) und die vom Benutzer zuvor besuchte Webseite, der so genannte Referer. Unter Linux finden sich die Logdateien meist im Verzeichnis /var/log und heißen access.log.

Abbildung 1: Ein Beispiel einer Logdatei des freien Webservers Apache – eine komplette Zeile ist blau hervorgehoben.

Damit finden Sie häufig verwendete Browser und können die Webseiten anschließend für diese optimieren. Die Referer auszuwerten ist vor allem bei Werbebannern interessant, denn sie zeigen, wie der Surfer auf der eigenen Site gelandet ist. Referer-Informationen helfen bei der Analyse von Suchmaschinenanfragen: Die URLs enthalten die Suchbegriffe, über die Surfer auf die eigenen Seiten gelangt sind.

Der Systemverwalter kann festlegen, dass der Webserver regelmäßig ein neues Logfile beginnt und das alte unter einem anderen Namen speichert. Optional komprimiert er die alte Logdatei im Gzip-Format, um Platz zu sparen. Einige Analyzer können direkt mit solchen Dateien umgehen, andere müssen Sie vorher manuell entpacken.

Mix it

Mit den Daten eines Logfiles lässt sich nun eine Statistik erstellen. Sind Sie an der Anzahl der Abrufe einer bestimmten Seite interessiert, zählen Sie einfach alle Logfile-Zeilen, die einer Anforderung dieser Seite entsprechen. Da dies schon bei kleineren Internetauftritten sehr umständlich ist, existieren zahlreiche Programme, die eine solche Sisyphusarbeit übernehmen.

Um die Fülle der verfügbaren Werkzeuge zu reduzieren, beschränken wir uns auf Analyzer, die als Eingabe die Log-Datei(en) erwarten.und auch auf einem anderen Rechner als dem eigentlichen Webserver laufen können.

Den meisten Analyzern ist gemein, dass sie nur wenig Dokumentation mitbringen. Da sie zudem über Konfigurationsdateien gesteuert werden, ist etwas Experimentierfreude angesagt. Es handelt sich durchweg um Kommandozeilenprogramme, die auf eine grafische Benutzeroberfläche verzichten.

Alle Analyzer liefern als Grunddaten die Gesamtzahl der Zugriffe und das übertragene Datenvolumen. Diese Informationen sind essentiell, da die meisten Hosting-Pakete eine obere Grenze für das Übertragungsvolumen festsetzen. Überschreiten Sie diese, kann es schnell teuer werden. Doch Vorsicht: Die hier betrachteten Logfiles halten nur das Übertragungsvolumen des Webservers fest. Weitere Datenflüsse, zum Beispiel der eingerichteten von E-Mail oder FTP-Zugriffen erfassen sie nicht.

Ebenfalls zu den Basisinformationen gehört eine Aufstellung der meistbesuchten Seiten. Daran lesen Sie die Beliebtheit einzelner Seiten oder Themen ab. Eine solche Liste sollten Sie auch im Hinblick auf die Rechnersicherheit durchsehen: Sind in ihr Dateien aufgeführt, die eigentlich nicht über das WWW lesbar sein sollten, ist dies ein Hinweis auf einen Einbruch oder Missbrauch.

Bei der Auswertung der besuchten Seiten unterscheiden die Programme zwischen Hits und Pageviews (auch Page Impressions). Ein Hit bezieht sich auf die Anforderung eines einzelnen Elementes, wie zum Beispiel einer Grafik. Besteht eine Seite aus drei Bildern und einer HTML-Datei, führt ein Abruf der Seite (ein Pageview) also zu insgesamt vier Hits. In diesem Zusammenhang spielt noch der Begriff des Visit (auch Session) eine Rolle: Bei einem Visit geht man davon aus, dass alle Anfragen von einer IP-Adresse in einem bestimmten Zeitraum (zum Beispiel 30 Minuten) von ein und demselben Benutzer stammen. Da Internet-Provider IP-Adressen oft dynamisch vergeben, ist diese Zuordnung noch die beste Näherung, will man nicht zu komplizierteren Mitteln wie Cookies greifen.

Wichtig, aber längst nicht mit allen Analyzern möglich, ist die Auflösung von IP-Adressen in deren lesbare Domain- bzw. Rechnernamen. Die dabei gleichzeitig ermittelte Top-Level-Domain lässt Rückschlüsse auf das Land zu, aus die Anfrage kam. Wer sein Angebot mehrsprachig führt, dürfte an diesen Informationen interessiert sein.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

1359 Hits
Wertung: 0 Punkte (24 Stimmen)

Schlecht Gut

Infos zum Autor

Tim Schürmann

Tim Schürmann

Tim Schürmann ist Diplom-Informatiker und derzeit als freier Autor unterwegs. Mehr Informationen finden Sie auf seiner Homepage unter http://www.tim-schuermann.de.


Infos zur Publikation

Infos zur Publikation

LinuxUser 06/2012

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Adobe AIR
Adobe-AIR-Programme installieren und (manuell) starten
Tim Schürmann, 14.05.2012 13:09, 0 Kommentare

Es gibt sie noch: neue Anwendungen, die Adobes Integrated Runtime voraussetzen. Aktuellstes und vermutlich auch größtes Beispiel ist das Adventure Botanicula

Aktuelle Fragen

gibt es ein Kommandozeilen Tool, um ein X11-Fenster in ein Anderes einzubetten?
GoaSkin , 21.05.2012 16:44, 0 Antworten
Das XEmbed-Protokoll ist u.A. dazu gedacht, dass man eine X11-Anwendung in eine andere wie ein Wi...
Apache2, Options -Indexes geht nicht
no no, 12.05.2012 19:01, 8 Antworten
Habe in apache2.conf folgendes stehen: Options -Indexes ...
LInux auf Dell LS H500
Andreas Endresl, 09.05.2012 08:54, 2 Antworten
Habe einen alten Dell Latitude LS H500 nur mit ext. Floppy und CD es geht nur immer eines von den...
Datenwiederherstellung unter Ubuntu 12.04 mit "Simple Backup" nach Umzug von Linux Mint
Christian Lottmann, 07.05.2012 13:33, 0 Antworten
Vor dem Umzug auf Ubuntu 12.04 habe ich unter Linux MInt mit "Simple Backup" voll (15.4.2012) und...
DKMS für den propritären NVIDIA-Treiber
Commander Data, 26.04.2012 22:02, 2 Antworten
Hallo an die Gemeinde. Ich habe hier ein interessantes Stück openSuSE gefunden. http://forums.op...