Inglise keeles on rämpsposti filtris kasutatav põhisõna "spam" võimalik esitada saksa sõnaga Abfall. Algselt tähendab see lihakonservi. IT-sektoris viitab see soovimatutele elektroonilistele sõnumitele, st need toimetatakse kätte ilma, et need oleksid kooskõlas vastuvõtja soovidega. Enamasti sisaldavad need reklaami. Hamburgis asuva statistikaportaali Statista uuringu kohaselt oli 2014. aastal rämpsposti hulk maailmas 28 miljardit. Tegemist on ülemaailmse probleemiga, mis lahendatakse rämpsposti filtri abil; nimelt tuleb soovimatud sõnumid arvutiprogrammiga välja sorteerida. Sellise soovimatu posti saatjat nimetatakse spammeriks, protsessi nimetatakse spämmimiseks või spämmimiseks.
Rämpspostifiltri kasutusvaldkonnad
Klassikaliselt piirdus rämpspostifiltri kasutamine soovimatute e-kirjade välja sorteerimisega. Selleks ehitati algoritmide abil e-posti programmide ja e-posti serverite moodulid. Kuna aga reklaami tähtsus Internetis on minevikus üha enam kasvanud, siis filtreerivad ka uuemad programmid lehekülgi. Konkreetselt kasutatakse rämpsposti filtreid ka veebilehitsejate, wikide ja blogide puhul.
Rämpspostifiltri töömeetodid
Spamifiltrid korjavad välja teavet, mis on otseselt seotud kirjaga. Ühest küljest võib see olla posti enda sisu, kuid piiratud ulatuses saab kontrollida ka sõnumi saatjat. Välja on kujunenud kolm meetodit:
a) Musta nimekirja meetod. Must nimekiri on "must nimekiri", mis on soovimatu kontakti sünonüüm. Sisu poolest loetleb selline loetelu teatud väljendeid ja märksõnu. Algoritm otsib e-kirju nende märksõnade järgi; kui ta leiab need, sorteeritakse e-kiri välja. Sama menetlust saab laiendada ka saatjale. Paljud rämpspostifiltrid, mis töötavad musta nimekirja meetodil, sisaldavad juba ulatuslikku andmebaasi. Kasutajad saavad seda osaliselt laiendada vastavalt oma isiklikele vajadustele.
b) Bayesi filtri meetod. Bayesi filtri meetod põhineb tõenäosusteoorial ja nõuab kasutaja koostööd, eriti alguses. Kui see on õigesti seadistatud, on see parem kui musta nimekirja meetod. Selle meetodi puhul peab kasutaja identifitseerima saadud kirjad kui Spam liigitada rämpsposti või mitte-rämpsposti. Bayesi filter õpib reegleid taustal ilma algoritmidesse sekkumata. Pärast umbes 1000 isesorteeritud posti töötab filter iseseisvalt. Bayesi filter jätkab õppimist ka hilisema ümbersorteerimise käigus.
c) Andmebaas põhinevad lahendused. Eriti reklaami e-kirjad sisaldavad mitmesuguseid andmeid, mis peaksid viima konkreetse kontaktini. See hõlmab ennekõike URLi Veebileht ja telefoninumber. Andmebaasipõhised lahendused kasutavad selle teabe otsimiseks algoritme. Kui need leitakse, sorteeritakse kirjad välja. Selliste meetodite edukust võib nimetada väga heaks. On tõsi, et reklaampostitusi saab üha uuesti ja uuesti ning seega piiramatul hulgal ümber kujundada, kuid teatud andmed jäävad alati samaks.
Spamifiltri veamäärad
Rämpspost on muutunud üha keerulisemaks. Selle tulemusena peab rämpspostifiltri rakendus jätkuvalt arenema. Sellega kaasnevad jõupingutused ja kulud, mistõttu mõned teenusepakkujad võtavad võimaliku teenuse eest tasu. Lisaks sellele on programmide abil sorteerimine seotud veamääraga, mida saab aga koolituse abil vähendada. Vale negatiivne tuvastamine on see, kui rämpsposti kirjad satuvad tavalisse postkasti; vale positiivne tuvastamine on aga see, kui tavalisi kirju peetakse ekslikult rämpspostiks. Kui optimeerimismeetmed vähendavad valenegatiivse äratundmise veamäära kümnele kuni ühele protsendile, siis valepositiivne klassifitseerimine kaldub nulli poole.
Tuntud rämpsposti filter on näiteks SpamAssassinmida kasutab enamik e-posti teenusepakkujaid.