Web Scraper Ssscrape unter der GPL veröffentlicht

(c) Dez Pain, sxc.hu
(c) Dez Pain, sxc.hu

Vielfältiges Saugtool

Mathias Huber
18.02.2010 Das Tool Ssscrape sammelt Daten aus RSS- und Atom-Feeds, Blogs und Podcasts. Nun ist die Open-Source-Software in Version 1.0 verfügbar.

Ssscrape prüft Feeds und andere Sammlungen von gleichartigen Elementen auf Aktualisierungen, lädt Inhalte herunter und bereinigt diese, indem es etwa aus HTML Plaintext macht. Zur Datenspeicherung dient eine MySQL-Datenbank. Außerdem kann das Tool Statistiken über die Aktivität der Feeds und Fehlermeldungen führen. Ein Scheduler sorgt für regelmäßige Aufrufe, ein Monitor zeigt die laufenden Aktivitäten an.

Umgangssprachlich Web Scraper genannt - ein Programm, das Informationen aus dem Web zusammenkratzt - steht hinter dem Namen Ssscrape das Wortungetüm "Syndicated and Semi-Structured Content Retrieval and Processing Environment". Der Web Scraper ist in Python umgesetzt, für die Netzwerkprogrammierung kommt Twisted zum Einsatz, zum Parsen der nicht immer standardkonformen HTML-Inhalte dient Beautiful Soup.

Ssscrape wird am Institut für Informations- und Sprachverarbeitung an der Universität Amsterdam entwickelt und ist unter LGPLv3 lizenziert. Ssscrape 1.0 setzt Python 2.4 voraus und steht auf der Projektseite zum Download als Tarball bereit.

Kommentare

Aktuelle Fragen

Knoppix-Live-CD (8.0 LU-Edition) im Uefiboot?
Thomas Weiss, 26.04.2017 20:38, 0 Antworten
Hallo, Da mein Rechner unter Windows 8.1/64Bit ein Soundproblem hat und ich abklären wollte, o...
Grub2 reparieren
Brain Stuff, 26.04.2017 02:04, 5 Antworten
Ein Windows Update hat mir Grub zerschossen ... der Computer startet nicht mehr mit Grub, sondern...
Linux open suse 2,8
Wolfgang Gerhard Zeidler, 18.04.2017 09:17, 2 Antworten
Hallo.bitte um Hilfe bei. Code fuer den Rescue-login open suse2.8 Mfg Yvo
grep und sed , gleicher Regulärer Ausdruck , sed mit falschem Ergebnis.
Josef Federl, 15.04.2017 00:23, 1 Antworten
Daten: dlfkjgkldgjldfgl55.55klsdjfl jfjfjfj8.22fdgddfg {"id":"1","name":"Phase L1","unit":"A",...
IP Cams aufzeichnen?
Bibliothek der Technischen Hochschule Mittelhessen / Giessen, 07.04.2017 09:25, 7 Antworten
Hallo, da nun des öfteren bei uns in der Nachbarschaft eingebrochen wird, würde ich gern mein...