Anglické podstatné meno "spam" v slove spam filter možno preložiť nemeckým slovom Abfall. Pôvodne to znamená mäsové konzervy. V sektore IT sa vzťahuje na nevyžiadané elektronické správy, t. j. správy, ktoré sú doručené bez toho, aby boli v súlade s prianím príjemcu. Väčšinou obsahujú reklamu. Podľa prieskumu hamburského štatistického portálu Statista bol v roku 2014 počet nevyžiadaných e-mailov na celom svete 28 miliárd. Ide o globálny problém, ktorý sa rieši pomocou spamového filtra; konkrétne sa nežiaduce správy triedia pomocou počítačového programu. Pôvodca takejto nevyžiadanej pošty sa nazýva spamer, proces sa nazýva spamming alebo rozosielanie spamu.
Oblasti použitia spamového filtra
Klasicky sa spamový filter používal len na triedenie nevyžiadaných e-mailov. Na tento účel boli pomocou algoritmov vytvorené moduly pre e-mailové programy a poštové servery. Keďže však význam reklamy na internete v minulosti čoraz viac rástol, novšie programy tiež filtrujú stránky. Filtre proti spamu sa používajú aj pre webové prehliadače, wiki a blogy.
Pracovné metódy spamového filtra
Spamové filtre zachytávajú informácie, ktoré priamo súvisia s poštou. Na jednej strane to môže byť obsah samotnej pošty, ale v obmedzenej miere možno kontrolovať aj odosielateľa správy. Zaviedli sa tri metódy:
a) Metóda čiernej listiny. Čierna listina je "čierny zoznam", ktorý je synonymom pre neželaný kontakt. Z hľadiska obsahu takýto zoznam obsahuje určité výrazy a kľúčové slová. Algoritmus vyhľadáva e-mail na tieto kľúčové slová; ak nejaké nájde, e-mail sa vytriedi. Rovnaký postup možno rozšíriť aj na odosielateľa. Mnohé filtre nevyžiadanej pošty, ktoré pracujú metódou čiernej listiny, už obsahujú rozsiahlu databázu. Používatelia si môžu túto funkciu čiastočne rozšíriť podľa svojich osobných potrieb.
b) Metóda Bayesovho filtra. Metóda Bayesovho filtra je založená na teórii pravdepodobnosti a vyžaduje si spoluprácu používateľa, najmä na začiatku. Ak je správne nastavený, je lepší ako metóda čiernej listiny. Pri tejto metóde musí používateľ identifikovať prijaté e-maily ako Spam klasifikovať nevyžiadanú poštu alebo nevyžiadanú poštu. Bayesovský filter sa učí pravidlá na pozadí bez akéhokoľvek zásahu do algoritmov. Približne po 1 000 samostatne roztriedených poštových zásielok funguje filter samostatne. Bayesovský filter sa ďalej učí aj počas následného pretriedenia.
c) Databáza riešenia na báze. Najmä reklamné e-maily obsahujú celý rad údajov, ktoré by mali viesť ku konkrétnemu kontaktu. Patrí sem predovšetkým adresa URL Webová lokalita a telefónne číslo. Riešenia založené na databáze používajú na vyhľadávanie týchto informácií algoritmy. Ak sa nájdu, pošta sa roztriedi. Úspešnosť týchto metód možno označiť za veľmi dobrú. Je pravda, že reklamné maily môžete redizajnovať stále dokola, a teda v neobmedzenom počte, avšak niektoré údaje zostávajú vždy rovnaké.
Chybovosť spamového filtra
Nevyžiadaná pošta sa v minulosti stala čoraz sofistikovanejšou. V dôsledku toho sa aplikácia spamového filtra musí naďalej vyvíjať. To si vyžaduje úsilie a náklady, a preto niektorí poskytovatelia za prípadnú službu účtujú poplatky. Okrem toho je triedenie pomocou programov spojené s chybovosťou, ktorú však možno znížiť tréningom. Falošne negatívna detekcia je vtedy, keď sa nevyžiadaná pošta dostane do bežnej schránky; na druhej strane, falošne pozitívna detekcia je vtedy, keď sa normálna pošta mylne považuje za spam. Zatiaľ čo optimalizačné opatrenia znižujú chybovosť falošne negatívneho rozpoznávania na desať až jedno percento, falošne pozitívna klasifikácia smeruje k nule.
Známym filtrom spamu je napríklad SpamAssassinktorý používa väčšina poskytovateľov e-mailových služieb.