Az angol "spam" főnév a spamszűrőben a német Abfall szóval is visszaadható. Eredetileg húskonzervet jelent. Az informatikai ágazatban a nem kívánt elektronikus üzenetekre utal, azaz olyan üzeneteket kézbesítenek, amelyek nem felelnek meg a címzett kívánságának. Többnyire reklámot tartalmaznak. A Statista hamburgi statisztikai portál kutatása szerint 2014-ben a spam e-mailek száma világszerte 28 milliárd volt. Ez egy globális probléma, amelyet egy spamszűrő segítségével oldanak meg; konkrétan a nem kívánt üzeneteket egy számítógépes programnak kell kiválogatnia. Az ilyen nem kívánt levelek küldőjét spammer-nek, a folyamatot pedig spammingnek vagy spammelésnek nevezzük.
A spamszűrő alkalmazási területei
Klasszikusan a spamszűrő használata a nem kívánt e-mailek kiválogatására korlátozódott. Ehhez az e-mail programok és levelezőszerverek moduljait algoritmusok segítségével építették fel. Mivel azonban a reklámok jelentősége az interneten az elmúlt időszakban egyre inkább megnőtt, az újabb programok is szűrik az oldalakat. A spamszűrőket különösen a webböngészők, a wikik és a blogok esetében is használják.
A spamszűrő munkamódszerei
A spamszűrők a levélhez közvetlenül kapcsolódó információkat veszik fel. Ez lehet egyrészt maga a levél tartalma, de korlátozott mértékben ellenőrizhető az üzenet feladója is. Három módszer alakult ki:
a) A Fekete lista módszer. A feketelista egy "fekete lista", amely a nem kívánt kapcsolat szinonimája. Tartalmilag egy ilyen lista bizonyos kifejezéseket és kulcsszavakat sorol fel. Egy algoritmus ezeket a kulcsszavakat keresi az e-mailben; ha talál, akkor az e-mailt kiválogatja. Ugyanez az eljárás kiterjeszthető a feladóra is. Sok feketelista módszerrel működő spamszűrő már kiterjedt adatbázist tartalmaz. A felhasználók ezt részben a személyes igényeiknek megfelelően bővíthetik.
b) A Bayes-szűrő módszer. A Bayes-szűrő módszer a valószínűségelméleten alapul, és a felhasználó együttműködését igényli, különösen az elején. Ha helyesen van beállítva, akkor jobb, mint a feketelista módszer. Ennél a módszernél a felhasználónak a kapott leveleket a következőképpen kell azonosítania Spam a spam és nem spam besorolása. A Bayes-szűrő a háttérben tanulja meg a szabályokat, az algoritmusokba való beavatkozás nélkül. Körülbelül 1000 saját szortírozású levél után a szűrő önállóan működik. A Bayes-szűrő a későbbi újraszortírozás során is tovább tanul.
c) A Adatbázis alapú megoldások. Különösen a reklámlevelek tartalmaznak olyan adatokat, amelyeknek konkrét kapcsolatfelvételhez kell vezetniük. Ide tartozik mindenekelőtt az URL-cím egy Weboldal és a telefonszámot. Az adatbázis-alapú megoldások algoritmusokat használnak ezen információk keresésére. Ha megtalálják őket, a leveleket kiválogatják. Az ilyen módszerek sikerességi aránya nagyon jónak mondható. Igaz, hogy a reklámleveleket újra és újra és így korlátlan számban áttervezheti, bizonyos adatok azonban mindig ugyanazok maradnak.
Spamszűrő hibaarányok
A spam e-mailek egyre kifinomultabbá váltak az elmúlt időszakban. Ennek eredményeképpen a spamszűrő alkalmazásnak folyamatosan fejlődnie kell. Ez erőfeszítéssel és költségekkel jár, ezért egyes szolgáltatók díjat számítanak fel a lehetséges szolgáltatásért. A programok segítségével történő válogatás továbbá hibaaránnyal jár, amely azonban képzéssel csökkenthető. Hamis negatív észlelésről akkor beszélünk, amikor a spam levelek a normál postaládába kerülnek; hamis pozitív észlelésről viszont akkor, amikor a normál leveleket tévesen spamnek nézik. Míg az optimalizálási intézkedések a hamis negatív felismerés hibaarányát tíz-egynéhány százalékra csökkentik, a hamis pozitív osztályozás a nulla felé tendál.
Egy jól ismert spamszűrő például SpamAssassinamelyet a legtöbb e-mail szolgáltató használ.