Crawler der KI-Dienste stören massiv Websites

Crawler der KI-Dienste stören massiv Websites

KI-Scraper lähmen Seiten

Das Training künstlicher Intelligenz verlangt unablässig nach Texten, die sich sogenannte Scraper unablässig aus dem Internet fischen. Genau die stören jedoch massiv den Betrieb vieler Websites. Darüber haben sich jetzt die Betreiber mehrerer Linux-Seiten öffentlich beschwert.

Den Anfang machte mit Jonathan Corbet der Betreiber des englischen Linux-Magazins LWN.net. Seit Neujahr würden die KI-Scraper so massiv auf seine Seiten einfallen, dass sie effektiv einen Distributed-Denial-of-Service-Angriff (DDoS-Angriff) verursachen und somit fast keine anderen Anfragen mehr zulassen. Teilweise sollen sich die KI-Scraper-Bots von mehreren verschiedenen IP-Adressen gleichzeitig auf LWN stürzen. Witzigerweise würden sie dann sämtliche Inhalte lesen – bis auf die Datei „robot.txt“, in der Hinweise für Suchmaschinen und eben solche Bots stehen.

Das LWN-Team investiert derzeit viel Zeit in aktive Maßnahmen gegen die KI-Scraper. Jonathan Corbet hält diesen Zustand für mehr als unzumutbar. Er würde „lieber über Buchhaltungssysteme schreiben, als sich mit diesem Mist zu beschäftigen“. Dabei ist LWN nicht die einzige betroffene Seite. Auf seinen Mastodon-Post hin meldeten sich weitere Seitenbetreiber, die vor ähnlichen Problemen stehen. Darunter auch das Fedora-Team, das Mühe hatte, die Seite pagure.io aufrechtzuerhalten.

Eine Lösung scheint derzeit primär darin zu liegen, die Bots zu sperren. Da die aber unter zahlreichen IP-Adressen auftreten, ist dies kein leichtes Unterfangen. Darüber hinaus bleiben die Bots jeweils unterhalb der Schwelle, die ein DDoS-Abwehrsystem anschlagen lässt. Als bislang einigermaßen effektiv erwies sich nur, ganze Subnetze für den Zugriff zu sperren.

Alternative Lösungsvorschläge liegen im Einsatz von Tools, die den Bots absichtlich (falsche) Informationen vorlegen. Einige Dienstleister wie Cloudflare bieten mittlerweile auch einen Anti-Bot-Dienst an, der allerdings die Einbindung von JavaScript voraussetzt – dessen Einsatz Jonathan Corbet auf LWN ablehnt. Das Lesen nur eingeloggten Nutzern zu gestatten ist für viele Websites ebenfalls keine Option. Diese und weitere Maßnahmen diskutiert die Community derzeit noch rege im Rahmen von Jonathan Corbets Post.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben