Crawlen ohne SQL

Web-Crawler Ebot 0.3 spricht mit No-SQL-Datenbanken

Web-Crawler Ebot 0.3 spricht mit No-SQL-Datenbanken

Mathias Huber
31.05.2010 Der verteilte Web-Crawler Ebot ist in Version 0.3 verfügbar. Sie unterstützt nun auch die Nicht-SQL-Datenbank Riak.

Neben Apache CouchDB kann die in Erlang geschriebene Software nun auch die No-SQL-Datenbank Riak als Backend verwenden. Daneben gibt es neue Optionen für die Verbindung zu Datenbank- und Queue-Servern im Netzwerk.

Ebot speichert die Daten zu den untersuchten URLs in einer No-SQL-Datenbank, die sich über eine REST-Schnittstelle abfragen lässt. Die noch zu besuchenden URLs reihen sich in eine AMQP-Queue ein. Dank der verteilten Architektur können mehrere Ebot-Crawler parallel laufen.

Die Ebot-Software ist unter GPLv3 lizenziert und verwendet freie Komponenten wie beispielsweise die HTTP-Bibliothek Mochiweb und das REST-Toolkit Webmachine. Einen Überblick über die Ebot-Architektur gibt eine Webseite des Entwicklers Matteo Redaelli, der Quellcode ist in einem Github-Repository zu finden.

Ähnliche Artikel

Kommentare

Aktuelle Fragen

Admin Probleme mit Q4os
Thomas Weiss, 30.03.2015 20:27, 6 Antworten
Hallo Leute, ich habe zwei Fragen zu Q4os. Die Installation auf meinem Dell Latitude D600 verl...
eeepc 1005HA externer sound Ausgang geht nicht
Dieter Drewanz, 18.03.2015 15:00, 1 Antworten
Hallo LC, nach dem Update () funktioniert unter KDE der externe Soundausgang an der Klinkenbuc...
AceCad DigiMemo A 402
Dr. Ulrich Andree, 15.03.2015 17:38, 2 Antworten
Moin zusammen, ich habe mir den elektronischen Notizblock "AceCad DigiMemo A 402" zugelegt und m...
Start-Job behindert Bootvorgang, Suse 13.2, KDE,
Wimpy *, 20.02.2015 10:32, 4 Antworten
Beim Bootvorgang ist ein Timeout von 1 Min 30 Sec. weil eine Partition sdb1 gesucht und nicht gef...
Konfiguration RAID 1 mit 2 SSDs: Performance?
Markus Mertens, 16.02.2015 10:02, 6 Antworten
Hallo! Ich möchte bei einer Workstation (2x Xeon E5-2687Wv3, 256GB RAM) 2 SATA-SSDs (512GB) al...