Für meinen Vortrag auf den Chemnitzer Linux Tagen, den ich hier bereits angekündigt habe, beschäftige ich mich gerade intensiv mit Yacy. Die in Java geschriebene P2P Searengine verbraucht unmengen an Arbeitsspeicher, weshalb ich sie dummerweise nicht auf meinem Server testen kann – der hat nur 1.5GB RAM – sondern auf mein Notebook ausweichen muss. (Schon blöd wenn das Notebook in allen Punkten (CPU, RAM, Festplatte) dem Server überlegen ist…) Im Moment, so nach 48 Stunden Laufzeit, verwaltet mein Peer (alt, siehe Update) je 3 Millionen Links und 3 Millionen Wörter. Die hat er natürlich nicht alle selber gecrawlt sondern auch zum (großen) Teil von anderen Peers geschickt bekommen. Leider gibt Yacy keine Auskunft darüber wie groß dieser Teil ist, beziehungsweise wie viele Seiten er selber gecrawlt hat. Er sagt nur, wie viele Seiten er im Moment pro Minute crawlt. Und dieser Wert schwankt komischerweise zwischen 2 und 450 – Ich hab keine Ahnung wieso und auch im Forum hat man mir bislang noch keine brauchbare Antwort gegeben.
Mehr zu meinen Erfahrung mit Yacy und der Funktionsweise von Suchmachinen im Allgemeinen gibt es dann Mitte März in Chemnitz.
Update: Ich hab mitlerweile doch meinen Peer auf den Server umgezogen, beziehungsweise einen neuen Peer gestartet. Wer meinen Peer mal testen will der kann mal search.gultsch.de auf Port 6060 ansprechen. Statistiken zum neuen Peer sind ebenfalls vorhanden. Die PPMs auf Yacystats sind enschließlich der Links von anderen Peers, und können deshalb auch negativ sind, weil mein Peer auch Links abgeben könnte. Möchte man die echten, selber gecrawlten Seiten wissen, rechnet man die gesamt Links minus der eingegangenen Links + die abgegebenen Links. Befolgt man diese Rechnung kommt man auf 100PPMs in den ersten 6 Stunden und 80PPMs für die ersten 17 Stunden. Mein Peer ist also langsamer geworden – Warum auch immer.






Ich verstehe ehrlich gesagt die Logik hinter der Anzahl von PPM auch nicht. Mal macht meine Maschine verdammt viele PPMs mal dropts um 50-75%. Last- und Internetbradbreite Probleme sind im meinem Fall ausgeschlossen, deswegen stehe ich leicht auf dem Schlauch. Ich frag mal im IRC nach wenn ich mal Zeit habe