Das englische Substantiv „spam“ im Spamfilter lässt sich mit dem deutschen Wort Abfall widergeben. Ursprünglich ist damit Dosenfleisch gemeint. Es handelt sich dabei im IT-Bereich um unerwünschte elektronische Nachrichten; d.h. sie werden zugestellt, ohne dass es dem Wunsch des Empfängers entspricht. Meist beinhalten sie Werbung. Nach Recherchen des Hamburger Statistik-Portals Statista betrug die Anzahl der weltweiten Spam-Mails im Jahr 2014 28 Milliarden. Es handelt sich um ein globales Problem, das mit der Hilfe eines Spamfilters gelöst wird; konkret sollen unerwünschte Nachrichten durch ein Computerprogramm aussortiert werden. Der Verursacher einer solchen unerwünschten Mail wird als Spammer, der Vorgang als Spammen oder Spamming bezeichnet.
Einsatzgebiete eines Spamfilter
Klassisch gesehen beschränkte sich der Einsatz eines Spamfilters auf das Aussortieren unerwünschter E-Mails. Dazu wurden mit Hilfe von Algorithmen Module für E-Mail-Programme und Mailserver konstruiert. Da die Bedeutung von Werbung im Internet allerdings in der Vergangenheit mehr und mehr zugenommen hat, filtern neuere Programme auch Seiten. Konkret kommen Spamfilter auch für Webbrowser, Wikis und Blogs zum Einsatz.
Arbeitsweisen eines Spamfilters
Spamfilter greifen Informationen auf, die unmittelbar mit einer Mail in Verbindung stehen. Das können einerseits Inhalte der Mail selbst sein, aber auch der Verursacher einer Nachricht kann in begrenztem Umfang überprüft werden. Es haben sich drei Methoden etabliert:
a) Die Blacklist-Methode. Bei einer Blacklist handelt es sich um eine „schwarze Liste“, die ein Synonym für einen unerwünschten Kontakt darstellt. Inhaltlich führt eine solche Liste bestimmte Ausdrücke und Stichwörter auf. Ein Algorithmus durchsucht eine Mail nach diesen Schlagwörtern; findet er solche, führt das dazu, dass eine Mail aussortiert wird. Entsprechendes Verfahren lässt sich auch auf den Absender erweitern. Viele Spamfilter, die nach der Blacklist-Methode arbeiten, enthalten bereits einen umfangreichen Datenbestand. User können diesen teilweise nach ihren persönlichen Bedürfnissen erweitern.
b) Die Bayes-Filter-Methode. Die Bayes-Filter-Methode beruht auf der Wahrscheinlichkeitstheorie und setzt vor allem am Anfang des Einsatzes die Mitarbeit des Users voraus. Wurde sie richtig eingestellt, ist sie der Blacklist-Methode überlegen. Dabei muss der User erhaltene Mails als Spam oder Nichtspam klassifizieren. Im Hintergrund erlernt der Bayessische Filter die Regeln, ohne dass ein Eingriff in die Algorithmen notwendig ist. Nach etwa 1.000 selbst einsortierten Mails arbeitet der Filter selbstständig. Auch im Rahmen anschließender Nachsortierungen lernt der Bayes-Filter weiter mit.
c) Die Datenbank basierten Lösungen. Gerade Werbemails beinhalten eine Reihe an Daten, die zu einer konkreten Kontaktaufnahme führen sollen. Darunter fallen vor allem die URL einer Webseite und die Telefonnummer. Datenbank basierte Lösungen lassen durch Algorithmen nach diesen Informationen suchen. Werden sie gefunden, werden Mails aussortiert. Die Erfolgsquote solcher Verfahren lässt sich als sehr gut beschreiben. Zwar kann man Werbemails immer wieder und damit in einer unbegrenzten Anzahl neugestalten; bestimmte Daten bleiben aber immer gleich.
Fehlerquoten von Spamfiltern
Spam-Mails sind in der Vergangenheit immer raffinierter geworden. Das führt dazu, dass sich die Anwendung Spamfilter immer weiter entwickeln muss. Das ist mit Aufwand und Kosten verbunden, weswegen mancher Anbieter für einen etwaigen Service Gebühren erhebt. Darüber hinaus ist das Einsortieren mittels Programmen mit einer Fehlerrate verbunden, die aber durch ein Training reduzierbar ist. Von falsch negativer Erkennung spricht man, wenn Spam-Mails in den regulären Posteingang gelangen; falsch positive Erkennung bezeichnet hingegen den Vorgang, bei dem normale Mails für Spam gehalten werden. Während Optimierungsmaßnahmen die Fehlerquote der falsch negativen Erkennung auf zehn bis ein Prozent reduzieren, tendiert die falsch positive Zuordnung gegen null.
Ein bekannter Spamfilter ist zum Beispiel SpamAssassin, welcher bei den meisten eMailprovidern zum Einsatz kommt.