Web Scraper Ssscrape unter der GPL veröffentlicht

(c) Dez Pain, sxc.hu
(c) Dez Pain, sxc.hu

Vielfältiges Saugtool

Mathias Huber
18.02.2010 Das Tool Ssscrape sammelt Daten aus RSS- und Atom-Feeds, Blogs und Podcasts. Nun ist die Open-Source-Software in Version 1.0 verfügbar.

Ssscrape prüft Feeds und andere Sammlungen von gleichartigen Elementen auf Aktualisierungen, lädt Inhalte herunter und bereinigt diese, indem es etwa aus HTML Plaintext macht. Zur Datenspeicherung dient eine MySQL-Datenbank. Außerdem kann das Tool Statistiken über die Aktivität der Feeds und Fehlermeldungen führen. Ein Scheduler sorgt für regelmäßige Aufrufe, ein Monitor zeigt die laufenden Aktivitäten an.

Umgangssprachlich Web Scraper genannt - ein Programm, das Informationen aus dem Web zusammenkratzt - steht hinter dem Namen Ssscrape das Wortungetüm "Syndicated and Semi-Structured Content Retrieval and Processing Environment". Der Web Scraper ist in Python umgesetzt, für die Netzwerkprogrammierung kommt Twisted zum Einsatz, zum Parsen der nicht immer standardkonformen HTML-Inhalte dient Beautiful Soup.

Ssscrape wird am Institut für Informations- und Sprachverarbeitung an der Universität Amsterdam entwickelt und ist unter LGPLv3 lizenziert. Ssscrape 1.0 setzt Python 2.4 voraus und steht auf der Projektseite zum Download als Tarball bereit.

Kommentare

Aktuelle Fragen

Samba-Server für Win-Daten & Linux-Dateirechte
Gerd Grundmann, 12.01.2017 18:25, 0 Antworten
Hallo Gemeinde, ich habe ewig gegooo.. aber nicht wirklich gefunden, was ich suche. Auf mei...
LM Cinnamon 18.1Serena 64 bit
Herwig Ameisbichler, 11.01.2017 13:02, 6 Antworten
Hallo an alle. Bin Linux Neuling.Habe auf meiner SSD neben W10 (finde ich nicht mehr)LM17.2 auch...
Bilder in E-Mail einbinden?
Werner Hahn, 23.12.2016 12:18, 4 Antworten
Dell Latitude E6510, Ubuntu 16.04, Mozilla Firefox Ich bitte um eine leicht verständliche Anle...
Linux Mint 17.2
Herwig Ameisbichler, 17.12.2016 11:19, 4 Antworten
Wer kann mir helfen? Hab seit gestern Linux am Pc.Wie kann ich diese Miniaturschrift im Menü,Lei...
Linux 17.2 Treiber f. PC Drucker installieren
Ernst Malitzki, 11.12.2016 13:04, 7 Antworten
Habe einen PC Drucker von HP. Möchte diesen PC Drucker an meinen PC anschließen. Hierzu benötige...