Web Scraper Ssscrape unter der GPL veröffentlicht

Vielfältiges Saugtool

- 18. Februar 2010

Das Tool Ssscrape sammelt Daten aus RSS- und Atom-Feeds, Blogs und Podcasts. Nun ist die Open-Source-Software in Version 1.0 verfügbar.

Ssscrape prüft Feeds und andere Sammlungen von gleichartigen Elementen auf Aktualisierungen, lädt Inhalte herunter und bereinigt diese, indem es etwa aus HTML Plaintext macht. Zur Datenspeicherung dient eine MySQL-Datenbank. Außerdem kann das Tool Statistiken über die Aktivität der Feeds und Fehlermeldungen führen. Ein Scheduler sorgt für regelmäßige Aufrufe, ein Monitor zeigt die laufenden Aktivitäten an.

Umgangssprachlich Web Scraper genannt – ein Programm, das Informationen aus dem Web zusammenkratzt – steht hinter dem Namen Ssscrape das Wortungetüm “Syndicated and Semi-Structured Content Retrieval and Processing Environment”. Der Web Scraper ist in Python umgesetzt, für die Netzwerkprogrammierung kommt Twisted zum Einsatz, zum Parsen der nicht immer standardkonformen HTML-Inhalte dient Beautiful Soup.

Ssscrape wird am Institut für Informations- und Sprachverarbeitung an der Universität Amsterdam entwickelt und ist unter LGPLv3 lizenziert. Ssscrape 1.0 setzt Python 2.4 voraus und steht auf der Projektseite zum Download als Tarball bereit.

IPFire 2.29 Core Update 202

Tim Schürmann

- 28. Mai 2026

Die neue Version der schlanken und flexiblen Firewall stopft die vor einigen Tagen entdeckten kritischen Sicherheitslücken im Kernel. Das Update von OpenVPN auf die Version 2.7 steigert zudem massiv den Durchsatz über VPN-Tunnel.

Was sonst noch unwichtig war in der Kalenderwoche 21/26

Was sonst noch unwichtig war

Tim Schürmann

- 23. Mai 2026

Fünf fabelhafte Fakten der Woche, die es irgendwie nicht zu einer Meldung auf Linux-Magazin Online geschafft haben – und warum eigentlich nicht. Oder mit den Worten einer namhaften KI: „Die Linux-Woche in Bits und Panik.“

WordPress 7.0 verbessert Backend-Optik und setzt auf KI

WordPress 7.0

Tim Schürmann

- 22. Mai 2026

Die Louis Armstrong gewidmete Version des Content-Management-Systems kommuniziert auf Wunsch mit generativer KI, zeigt ein leicht aufpoliertes Backend, erlaubt einen schnellen Blick in die Vergangenheit und kann die Schriftbibliothek in allen Themes nutzen.

Proxmox VE 9.2 bietet neuen dynamischen Load Balancer

Proxmox VE 9.2

Tim Schürmann

- 21. Mai 2026

Das Proxmox Virtual Environment bietet einen neuen Cluster Resource Scheduler (CRS) für das Load Balancing, verbessert das Software Defined Networking (SDN), verwaltet benutzerdefinierte CPUs über die Weboberfläche und erlaubt ein „disarm“ des HA-Managers.

Tails 7.8: Thunderbird ist nicht mehr standardmäßig dabei

Tails 7.8

Tim Schürmann

- 21. Mai 2026

Das Live-System Tails erlaubt das anonyme Surfen im Internet über das Tor-Netzwerk. Die neue Version 7.8 schmeißt Thunderbird von Bord – wer den E-Mail-Client benötigt, muss ihn ab sofort manuell nachinstallieren. Diese Maßnahme hat allerdings einen triftigen Grund.

Web Scraper Ssscrape unter der GPL veröffentlicht

Web Scraper Ssscrape unter der GPL veröffentlicht

Vielfältiges Saugtool

Ähnliche Artikel

IPFire 2.29 Core Update 202

Was sonst noch unwichtig war

WordPress 7.0

Proxmox VE 9.2

Tails 7.8