Web-Crawler Ebot 0.3 spricht mit No-SQL-Datenbanken

Web-Crawler Ebot 0.3 spricht mit No-SQL-Datenbanken

Crawlen ohne SQL

Mathias Huber
31.05.2010 Der verteilte Web-Crawler Ebot ist in Version 0.3 verfügbar. Sie unterstützt nun auch die Nicht-SQL-Datenbank Riak.

Neben Apache CouchDB kann die in Erlang geschriebene Software nun auch die No-SQL-Datenbank Riak als Backend verwenden. Daneben gibt es neue Optionen für die Verbindung zu Datenbank- und Queue-Servern im Netzwerk.

Ebot speichert die Daten zu den untersuchten URLs in einer No-SQL-Datenbank, die sich über eine REST-Schnittstelle abfragen lässt. Die noch zu besuchenden URLs reihen sich in eine AMQP-Queue ein. Dank der verteilten Architektur können mehrere Ebot-Crawler parallel laufen.

Die Ebot-Software ist unter GPLv3 lizenziert und verwendet freie Komponenten wie beispielsweise die HTTP-Bibliothek Mochiweb und das REST-Toolkit Webmachine. Einen Überblick über die Ebot-Architektur gibt eine Webseite des Entwicklers Matteo Redaelli, der Quellcode ist in einem Github-Repository zu finden.

Ähnliche Artikel

Kommentare

Aktuelle Fragen

Samsung VG-KBD1500 - Bluetooth-Tastatur mit Touchpad mit Xubuntu 16.04.2 LTS
Linux- & BSD-UserGroup im Weserbergland, 16.08.2017 19:16, 0 Antworten
Bin grad mit "meinem Latein am Ende" darum hier mal so in den Raum geworfen. Samsung VG-KBD1500 -...
Tails verbindet nicht mit WLan
Georg Vogel, 30.07.2017 15:06, 5 Antworten
Hallo zusammen! Habe mir von Linux Mint aus einen Tails USB-Stick erstellt. Läuft soweit gut,...
Genivi for Raspberry Pi 3
Sebastian Ortmanns, 28.07.2017 10:37, 1 Antworten
I try to build a Genivi Development Platform for Rasberry Pi 3. But I always get the failures bel...
Bash awk Verständnis-Frage
Josef Federl, 22.07.2017 17:46, 2 Antworten
#!/bin/bash # Skriptdateiname = test.sh spaltennummer=10 wert=zehner awk '{ $'$spaltennummer'...
Bash - verschachtelte Variablenersetzung, das geht doch eleganter als meine Lösung?
Josef Federl, 18.07.2017 20:24, 3 Antworten
#!/bin/bash #Ziel des Skriptes wird sein die ID zu extrahieren hier nur als Consolentest: root@...