Het Engelse zelfstandig naamwoord "spam" in de spamfilter kan worden vertaald als het Duitse woord Abfall. Oorspronkelijk verwijst het naar ingeblikt vlees. In de IT-sector gaat het om ongevraagde elektronische berichten, d.w.z. dat ze zonder verzoek van de ontvanger worden afgeleverd. Ze bevatten meestal reclame. Volgens onderzoek van het Hamburgse statistiekportaal Statista bedroeg het aantal spammails wereldwijd in 2014 28 miljard. Dit is een wereldwijd probleem dat met behulp van een spamfilter wordt opgelost; met name ongewenste berichten moeten door een computerprogramma worden gesorteerd. De afzender van dergelijke ongewenste mail wordt een spammer genoemd, het proces wordt spamming of spamming genoemd.
Toepassingsgebieden van een spamfilter
Klassiek gezien was het gebruik van een spamfilter beperkt tot het sorteren van ongewenste e-mails. Hiervoor werden modules voor e-mailprogramma's en mailservers gebouwd met behulp van algoritmen. Sinds het belang van reclame op het internet in het verleden echter meer en meer is toegenomen, filteren nieuwere programma's ook pagina's. Specifiek worden spamfilters ook gebruikt voor webbrowsers, wiki's en blogs.
Werkwijze van een spamfilter
Spamfilters pikken informatie op die direct gerelateerd is aan een mail. Dit kan de inhoud van de mail zelf zijn, maar ook de afzender van een bericht kan in beperkte mate worden gecontroleerd. Er zijn drie methoden ingeburgerd geraakt:
(a) De Zwarte lijst methode. Een zwarte lijst is een "zwarte lijst" die een synoniem is voor een ongewenst contact. Inhoudelijk geeft een dergelijke lijst een opsomming van bepaalde uitdrukkingen en trefwoorden. Een algoritme zoekt in een mail naar deze trefwoorden; als het zulke trefwoorden vindt, zorgt het ervoor dat een mail wordt gesorteerd. Dezelfde procedure kan worden uitgebreid tot de afzender. Veel spamfilters die werken volgens de blacklistmethode bevatten al een uitgebreide database. De gebruikers kunnen deze database uitbreiden volgens hun persoonlijke behoeften.
b) De Bayes-filtermethode. De Bayes-filtermethode is gebaseerd op de waarschijnlijkheidstheorie en vereist de medewerking van de gebruiker, vooral in het begin. Als het goed is opgezet, is het superieur aan de zwarte lijst-methode. Bij deze methode moet de gebruiker ontvangen mails identificeren als Spam spam of niet-spam classificeren. Het Bayesiaanse filter leert de regels op de achtergrond, zonder tussenkomst van de algoritmen. Na ongeveer 1.000 zelfgesorteerde mails werkt het filter zelfstandig. Het Bayesiaanse filter blijft ook leren tijdens de daaropvolgende hersortering.
(c) De Database gebaseerde oplossingen. Met name reclame-e-mails bevatten een reeks gegevens die moeten leiden tot een specifiek contact. Dit omvat in de eerste plaats de URL van een website en het telefoonnummer. Oplossingen op basis van databases maken gebruik van algoritmen om naar deze informatie te zoeken. Als ze worden gevonden, worden de mails gesorteerd. Het succespercentage van dergelijke procedures kan als zeer goed worden omschreven. Hoewel reclamemails steeds opnieuw en dus onbeperkt kunnen worden vormgegeven, blijven bepaalde gegevens altijd hetzelfde.
Foutpercentages van spamfilters
Spammails zijn in het verleden steeds geavanceerder geworden. Als gevolg daarvan moet de spamfilterapplicatie evolueren. Dit brengt inspanningen en kosten met zich mee, en daarom vragen sommige aanbieders vergoedingen voor elke dienst. Daarnaast is het sorteren door middel van programma's gekoppeld aan een foutpercentage, maar dit kan worden verminderd door training. Vals-negatieve detectie is wanneer spammails de reguliere inbox bereiken; valspositieve detectie is wanneer normale mails worden verward met spam. Terwijl optimaliseringsmaatregelen het foutenpercentage van de fout-negatieve detectie verminderen tot tien à één procent, neigt de fout-positieve detectie naar nul.
Een bekend spamfilter is bijvoorbeeld SpamAssassindie door de meeste e-mailproviders wordt gebruikt.