"Woher haben die Spammer bloß meine E-Mail-Adresse?", fragt sich so mancher genervte Anwender. Steht diese auf Ihrer Homepage im Internet, so sind Sie mit ziemlicher Sicherheit so genannten Harvestern ins Netz gegangen. Dabei handelt es sich um Suchprogramme, die das Netz durchkämmen und jede gefundene E-Mail-Adresse "ernten".
Da sich die Aktionen solcher Adressernteprogramme außerhalb der Computer, auf denen sie laufen, nicht von normalen Seitenabrufen unterscheiden lassen, ist die Existenz der Harvester zwar letzten Endes eine Vermutung – zahlreiche Quellen ([1],[2],[3]) gehen jedoch davon aus, dass sie in großer Zahl ihr Unwesen treiben. Anders lässt sich die Spamflut kaum erklären, die über die Mailaccounts schwappt und eine gewaltige Last für den Datenverkehr im Internet darstellt. Auch gekaufte E-Mail-Adressen lassen sich meist auf automatische Suchmaschinen zurückführen.
Dieser Artikel stellt einen Feldversuch vor, der den Zusammenhang zwischen der Veröffentlichung der Mailadresse und dem Spamaufkommen untersucht. Die Mail-Adressen auf der Testseite waren dabei teilweise als normaler mailto:-Link und als blanker Text angegeben, teilweise jedoch durch unterschiedliche Tarnverfahren geschützt.
Stellt die Veröffentlichung der Mail-Adressen im Internet die Ursache für das allmorgendliche Vergnügen dar, unzählige E-Mails auf wenige relevante zu durchsuchen, warum sollte man dann nicht einfach von einer Veröffentlichung absehen? In Deutschland gilt für Internetseiten grundsätzlich eine Impressumspflicht. Paragraph 6 Nr. 2 TDG (Teledienstgesetz) legt fest, dass dabei auch eine "Adresse der elektronischen Post" zu nennen sei. Außerdem möchten viele Seitenautoren, dass ihre Besucher mit ihnen Kontakt aufnehmen können.
Es gibt zahlreiche Tricks, im die Harvester zu überlisten (vgl. [4],[5]), trotzdem aber die E-Mail-Adresse ordnungsgemäß auf der Internetseite vorzuhalten. Hinter den meisten Adressen in Abbildung 1 etwa stecken Verschleierungstaktiken. Das Spektrum reicht von einfachen, mit dem bloßen Auge erkennbaren Verfahren, wie dem Einfügen von Leerzeichen, bis zu in Javascript programmierten Verschlüsselungsverfahren.
In die Praxis
Um die Wirksamkeit der verschiedener Tarnverfahren zu testen, hat der Autor dieses Artikels eine – soweit aus dem Whois-Archiv [6] und dem Web-Archiv [7] erkennbar war – noch nie benutzte Domain registriert und eine Seite mit bereits vorgestellten Verfahren zur Tarnung der E-Mail-Adressen eingestellt. Der CSS-Code <div style="visibility:hidden; display:none"> machte die E-Mail-Adressen für menschliche Besucher, die sich zufällig auf die Seite verirrten, unsichtbar.
Damit die Harvester die Testseite fanden, verlinkten viele Webmaster die Seite auf Bitte des Autors. Die Links waren für menschliche Seitenbesucher ebenfalls unsichtbar. Viele Webmaster nutzten offensichtlich den auf der Seite vorgeschlagenen HTML-Code: Suchte man im Februar 2005 nach dem dort angegebenen Linktext in Google, stand die Seite auf Rang 9 von etwa 249.000 Treffern, Ende August 2006 sogar auf Rang 1 von ca. 15.200.000.
Jetzt hieß es warten und die eingehenden Mails zählen. Um Fehler auszuschließen, protokollierte ein Perl-Script jede eingehende Mail. Eine MySQL-Datenbank speicherte die Daten und stellte sicher, dass auch bei mehren gleichzeitigen Schreibzugriffen keine Daten verlorengingen. Da MySQL die jeweils erste Spalte vom Typ Timestamp in einer Datenbanktabelle bei jeder Einfüge- oder Änderungsaktion automatisch mit der aktuellen Zeit überschreibt, musste sich der Skript nicht um das Mitschreiben der Ankunftszeit kümmern.
Harvester im Test
Um einen ersten Eindruck über die Wirksamkeit der Tarnverfahren zu bekommen, installierte der Autor auf einem Windows-Rechner diverse Harvester – fertige Mail-Adressen-Suchmaschinen sind fast nur für dieses Betriebssystem erhältlich – und ließ sie auf die Seite los. Einige der getesteten Harvester fanden sich auch auf der Download-Seite von T-Online oder bei ZDnet. Obwohl zwei Harvester-Hersteller damit warben, dass ihre Produkte auch getarnte E-Mail-Adressen erkennen könnten und dazu auf die Engine des Microsoft'schen Internet Explorers zurückgreifen, waren sie für einen Großteil der getarnten Adressen blind.
Im Wesentlichen ließen sich zwei Muster identifizieren, nach denen die Harvester E-Mail-Adressen herausfiltern: Einige suchen offensichtlich nach der Zeichenfolge mailto: und übernehmen dann alle Zeichen bis zum nächsten Leerzeichen oder Anführungszeichen als E-Mail-Adresse. Andere scheinen E-Mail-Adressen anhand eines regulären Ausdrucks zu finden, wie er unter [4] beschrieben ist. So fanden einige Harvester die verlinkten, aber durch URL-Encoding oder HTML-Entities getarnten Adressen – ähnliche Adressen, die ohne mailto:-Link angegeben waren, jedoch nicht. Allerdings konnten sie die Adressen nicht decodieren.
Die Harvester, die die getarnten Adressen fanden, übersahen die im Klartext angegebenen, aber nicht verlinkten Adressen. Sie suchten also offensichtlich nach der Zeichenfolge mailto:. Der Rest der Harvester scheint dagegen nach einem Muster vom Typ Zeichenfolge@Zeichenfolge zu suchen: Sie fanden keine der getarnten Adressen, aber alle im Klartext angegebenen. Bei den mit mailto: verlinkten oder oder im Klartext lesbaren Adressen war also mit der größten Spamflut zu rechnen.



