Vielfältiges Saugtool

(c) Dez Pain, sxc.hu
(c) Dez Pain, sxc.hu

Web Scraper Ssscrape unter der GPL veröffentlicht

Mathias Huber
18.02.2010 Das Tool Ssscrape sammelt Daten aus RSS- und Atom-Feeds, Blogs und Podcasts. Nun ist die Open-Source-Software in Version 1.0 verfügbar.

Ssscrape prüft Feeds und andere Sammlungen von gleichartigen Elementen auf Aktualisierungen, lädt Inhalte herunter und bereinigt diese, indem es etwa aus HTML Plaintext macht. Zur Datenspeicherung dient eine MySQL-Datenbank. Außerdem kann das Tool Statistiken über die Aktivität der Feeds und Fehlermeldungen führen. Ein Scheduler sorgt für regelmäßige Aufrufe, ein Monitor zeigt die laufenden Aktivitäten an.

Umgangssprachlich Web Scraper genannt - ein Programm, das Informationen aus dem Web zusammenkratzt - steht hinter dem Namen Ssscrape das Wortungetüm "Syndicated and Semi-Structured Content Retrieval and Processing Environment". Der Web Scraper ist in Python umgesetzt, für die Netzwerkprogrammierung kommt Twisted zum Einsatz, zum Parsen der nicht immer standardkonformen HTML-Inhalte dient Beautiful Soup.

Ssscrape wird am Institut für Informations- und Sprachverarbeitung an der Universität Amsterdam entwickelt und ist unter LGPLv3 lizenziert. Ssscrape 1.0 setzt Python 2.4 voraus und steht auf der Projektseite zum Download als Tarball bereit.

Kommentare

1532 Hits
Wertung: 162 Punkte (6 Stimmen)

Schlecht Gut

Aktuelle Fragen

Server antwortet mit falschem Namen
oin notna, 21.07.2014 19:13, 1 Antworten
Hallo liebe Community, Ich habe mit Apache einen Server aufgesetzt. Soweit, so gut. Im Heimnet...
o2 surfstick software für ubuntu?
daniel soltek, 15.07.2014 18:27, 1 Antworten
hallo zusammen, habe mir einen o2 surfstick huawei bestellt und gerade festgestellt, das der nic...
Öhm - wozu Benutzername, wenn man dann hier mit Klarnamen angezeigt wird?
Thomas Kallay, 03.07.2014 20:30, 1 Antworten
Hallo Team von Linux-Community, kleine Zwischenfrage: warum muß man beim Registrieren einen Us...
openSUSE 13.1 - Login-Problem wg. Fehler im Intel-Grafiktreiber?
Thomas Kallay, 03.07.2014 20:26, 8 Antworten
Hallo Linux-Community, habe hier ein sogenanntes Hybrid-Notebook laufen, mit einer Intel-HD460...
Fernwartung für Linux?
Alfred Böllmann, 20.06.2014 15:30, 7 Antworten
Hi liebe Linux-Freunde, bin beim klassischen Probleme googeln auf www.expertiger.de gestoßen, ei...