Home / LinuxUser / 2004 / 05 / Auswertung von Webserver-Logdateien

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

War doch klar...
(229 Punkte bei 11 Stimmen)
Pardus Linux am Ende?
(201 Punkte bei 6 Stimmen)
Meinst Du: Patch CD Updates?
(179 Punkte bei 5 Stimmen)
One goes, one comes
(161 Punkte bei 4 Stimmen)
Speichern in der Cloud
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Shopping
Topsuche
 
Yatego Deutschlands größte Shoppingmall. 10000 Shops,
3.5 Mio Artikel. Alle Bestseller, Servertechnik und Technik Themenwelten.

Notebooks und Netzwerkhardware bei Mercateo günstig kaufen.
Internet Telefonie mit VoIP Telefonen von Gigaset
Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.
Günstige Digitalkameras finden Sie im Preisvergleich.

Besucher im Blick

Auswertung von Webserver-Logdateien

01.05.2004 Webserver sind äußerst gesprächig. Sie protokollieren penibel jede Anfrage und jeden Zugriff als graue Zahlenkolonnen. Mit der richtigen Software werden daraus aussagekräftige Grafiken.

Jeder Webserver schreibt mit, wenn seine HTML-Dateien übers Internet abgerufen werden. Er protokolliert Zeitpunkt, Filenamen und viele andere Daten im Detail. Deshalb eignen sich Logdateien kaum als angenehme Lektüre. Weblog-Programme verarbeiten solche Files und bereiten das Ergebnis grafisch auf. So erhalten Sie schnell eine Übersicht über die Zugriffe auf den eigenen Webserver. Dabei können Sie aus einer Fülle kostenloser Weblog-Analyzer wählen.

Formatwirrwar

Bei den meisten Webservern können Sie einstellen, welche Daten sie protokollieren – vorausgesetzt Sie sind Ihr eigener Provider oder dürfen zumindest die Serverkonfiguration bestimmen. Von Haus aus benutzen die meisten Server ein recht ähnliches Format für ihre Logdateien.

Die einfachste Variante ist das Common Log File Format (CLF). Es enthält zum Beispiel die IP-Adresse des anfragenden Rechners, die Anzahl übertragener Bytes und Datum und Uhrzeit des Zugriffs (vgl. Abbildung 1). Um einige Einschränkungen des CLF-Formats zu umgehen, wurden verschiedene Erweiterungen entwickelt. Beispiele hierfür sind das Combined Log File Format oder das Extended Log File Format (ELFF) des World Wide Web Consortium (W3C). Hinzugekommen sind unter anderem die Kennung des Browsers (User-Agent) und die vom Benutzer zuvor besuchte Webseite, der so genannte Referer. Unter Linux finden sich die Logdateien meist im Verzeichnis /var/log und heißen access.log.

Abbildung 1: Ein Beispiel einer Logdatei des freien Webservers Apache – eine komplette Zeile ist blau hervorgehoben.

Damit finden Sie häufig verwendete Browser und können die Webseiten anschließend für diese optimieren. Die Referer auszuwerten ist vor allem bei Werbebannern interessant, denn sie zeigen, wie der Surfer auf der eigenen Site gelandet ist. Referer-Informationen helfen bei der Analyse von Suchmaschinenanfragen: Die URLs enthalten die Suchbegriffe, über die Surfer auf die eigenen Seiten gelangt sind.

Der Systemverwalter kann festlegen, dass der Webserver regelmäßig ein neues Logfile beginnt und das alte unter einem anderen Namen speichert. Optional komprimiert er die alte Logdatei im Gzip-Format, um Platz zu sparen. Einige Analyzer können direkt mit solchen Dateien umgehen, andere müssen Sie vorher manuell entpacken.

Mix it

Mit den Daten eines Logfiles lässt sich nun eine Statistik erstellen. Sind Sie an der Anzahl der Abrufe einer bestimmten Seite interessiert, zählen Sie einfach alle Logfile-Zeilen, die einer Anforderung dieser Seite entsprechen. Da dies schon bei kleineren Internetauftritten sehr umständlich ist, existieren zahlreiche Programme, die eine solche Sisyphusarbeit übernehmen.

Um die Fülle der verfügbaren Werkzeuge zu reduzieren, beschränken wir uns auf Analyzer, die als Eingabe die Log-Datei(en) erwarten.und auch auf einem anderen Rechner als dem eigentlichen Webserver laufen können.

Den meisten Analyzern ist gemein, dass sie nur wenig Dokumentation mitbringen. Da sie zudem über Konfigurationsdateien gesteuert werden, ist etwas Experimentierfreude angesagt. Es handelt sich durchweg um Kommandozeilenprogramme, die auf eine grafische Benutzeroberfläche verzichten.

Alle Analyzer liefern als Grunddaten die Gesamtzahl der Zugriffe und das übertragene Datenvolumen. Diese Informationen sind essentiell, da die meisten Hosting-Pakete eine obere Grenze für das Übertragungsvolumen festsetzen. Überschreiten Sie diese, kann es schnell teuer werden. Doch Vorsicht: Die hier betrachteten Logfiles halten nur das Übertragungsvolumen des Webservers fest. Weitere Datenflüsse, zum Beispiel der eingerichteten von E-Mail oder FTP-Zugriffen erfassen sie nicht.

Ebenfalls zu den Basisinformationen gehört eine Aufstellung der meistbesuchten Seiten. Daran lesen Sie die Beliebtheit einzelner Seiten oder Themen ab. Eine solche Liste sollten Sie auch im Hinblick auf die Rechnersicherheit durchsehen: Sind in ihr Dateien aufgeführt, die eigentlich nicht über das WWW lesbar sein sollten, ist dies ein Hinweis auf einen Einbruch oder Missbrauch.

Bei der Auswertung der besuchten Seiten unterscheiden die Programme zwischen Hits und Pageviews (auch Page Impressions). Ein Hit bezieht sich auf die Anforderung eines einzelnen Elementes, wie zum Beispiel einer Grafik. Besteht eine Seite aus drei Bildern und einer HTML-Datei, führt ein Abruf der Seite (ein Pageview) also zu insgesamt vier Hits. In diesem Zusammenhang spielt noch der Begriff des Visit (auch Session) eine Rolle: Bei einem Visit geht man davon aus, dass alle Anfragen von einer IP-Adresse in einem bestimmten Zeitraum (zum Beispiel 30 Minuten) von ein und demselben Benutzer stammen. Da Internet-Provider IP-Adressen oft dynamisch vergeben, ist diese Zuordnung noch die beste Näherung, will man nicht zu komplizierteren Mitteln wie Cookies greifen.

Wichtig, aber längst nicht mit allen Analyzern möglich, ist die Auflösung von IP-Adressen in deren lesbare Domain- bzw. Rechnernamen. Die dabei gleichzeitig ermittelte Top-Level-Domain lässt Rückschlüsse auf das Land zu, aus die Anfrage kam. Wer sein Angebot mehrsprachig führt, dürfte an diesen Informationen interessiert sein.

Einem Freund empfehlen    Druckansicht Bookmark and Share
Kommentare

1132 Hits
Wertung: 0 Punkte (24 Stimmen)

Schlecht Gut

Infos zum Autor

Tim Schürmann

Tim Schürmann

Tim Schürmann ist Diplom-Informatiker und derzeit als freier Autor unterwegs. Mehr Informationen finden Sie auf seiner Homepage unter www.tim-schuermann.de.


Infos zur Publikation

Infos zur Publikation

title_2012_02

Aktuelle Ausgabe kaufen:

Heft bestellen Heft als PDF kaufen

LinuxUser erscheint monatlich und kostet in der Nomedia-Ausgabe EUR 5,50 und mit DVD EUR 8,50. Weitere Informationen zum Heft finden Sie auf der LinuxUser-Homepage.

Im LinuxUser-Probeabo erhalten Sie drei Ausgaben für 3 Euro. Das Jahresabo (ab EUR 56,10) können Sie im LNM-Shop bestellen.

Tipp der Woche

Duden Korrektor unter 64-Bit
Duden Korrektor unter 64-Bit
Tim Schürmann, 06.02.2012 10:36, 0 Kommentare

Der Duden Korrektor bietet eine äußerst nützliche Rechtschreib- und Grammatikkorrektur für LibreOffice und bringt in der aktuellen Version 8 e...

Aktuelle Fragen

rndc reload zone - failed bad zone
Ludwig jun. B., 06.02.2012 16:08, 2 Antworten
Schönen guten Tag, ich habe folgendes Problem. Immer wenn ich folgendes Kommando ausführen bek...
Skype für 64-Bit-Prozessor u. Suse 12.1
Klaus Sigerist, 05.02.2012 11:39, 3 Antworten
Hallo Gemeinde! Ich bin nur ein einfacher Nutzer und habe Probleme mit der Installation von Skyp...
8! Anfängerfrage :) Wie finde ich in Ubuntu die Datenträger (Bild, Text)
samuel leusam, 04.02.2012 15:53, 1 Antworten
Ich habe neu Ubuntu. Wenn ich die SD Karte im Laptop einstecke, erkennt er sie und gibt ihr den N...
OpenSuse 12.1-Service Kit 01/12
Christoph-J. Walter, 28.01.2012 08:52, 2 Antworten
Hallo Gemeinde, ich habe 12.1 neu installiert. Alles in Ordnung! Nun möchte ich das Service Kit (...
Ubuntu 11.10 konfigurieren
Michael Hinz, 27.01.2012 17:52, 1 Antworten
Ubuntu läuft bei mir. Allerdings nur, wenn die Daten-CD eingelegt ist. Unabhängig von Bios-Einste...