Roskapostisuodattimen englanninkielinen substantiivi "spam" voidaan kääntää saksankielisellä sanalla Abfall. Alun perin se tarkoittaa lihasäilykettä. Tietotekniikka-alalla sillä tarkoitetaan ei-toivottuja sähköisiä viestejä, jotka toimitetaan vastaanottajan toivomusten vastaisesti. Useimmiten ne sisältävät mainoksia. Hampurilaisen Statista-tilastoportaalin tutkimuksen mukaan roskapostiviestejä lähetettiin vuonna 2014 maailmanlaajuisesti 28 miljardia kappaletta. Kyseessä on maailmanlaajuinen ongelma, joka ratkaistaan roskapostisuodattimen avulla; erityisesti ei-toivotut viestit on lajiteltava tietokoneohjelman avulla. Tällaisen ei-toivotun sähköpostin lähettäjää kutsutaan roskapostittajaksi, ja prosessia kutsutaan roskapostitukseksi tai roskapostitukseksi.
Roskapostisuodattimen käyttöalueet
Perinteisesti roskapostisuodattimen käyttö rajoittui ei-toivottujen sähköpostiviestien lajitteluun. Tätä tarkoitusta varten rakennettiin algoritmien avulla moduuleja sähköpostiohjelmia ja sähköpostipalvelimia varten. Koska mainonnan merkitys Internetissä on kuitenkin kasvanut viime aikoina yhä enemmän, myös uudemmat ohjelmat suodattavat sivuja. Erityisesti roskapostisuodattimia käytetään myös verkkoselaimissa, wikeissä ja blogeissa.
Roskapostisuodattimen työmenetelmät
Roskapostisuodattimet poimivat tiedot, jotka liittyvät suoraan sähköpostiin. Yhtäältä tämä voi olla itse sähköpostin sisältö, mutta myös viestin lähettäjä voidaan tarkistaa rajoitetusti. Kolme menetelmää on vakiintunut:
a) Mustan listan menetelmä. Musta lista on "musta lista", joka on synonyymi ei-toivotulle yhteydelle. Sisällön osalta tällaisessa luettelossa luetellaan tiettyjä ilmaisuja ja avainsanoja. Algoritmi etsii sähköpostista näitä avainsanoja; jos se löytää niitä, sähköposti lajitellaan pois. Sama menettely voidaan ulottaa myös lähettäjään. Monissa mustan listan menetelmällä toimivissa roskapostisuodattimissa on jo laaja tietokanta. Käyttäjät voivat laajentaa tätä osittain henkilökohtaisten tarpeidensa mukaan.
b) Bayesin suodatinmenetelmä. Bayes-suodatinmenetelmä perustuu todennäköisyysteoriaan ja edellyttää käyttäjän yhteistyötä erityisesti alussa. Jos se on asetettu oikein, se on parempi kuin mustan listan menetelmä. Tässä menetelmässä käyttäjän on tunnistettava vastaanotetut sähköpostiviestit seuraavasti Roskaposti luokitella roskaposti ja ei-roskaposti. Bayes-suodatin oppii säännöt taustalla ilman algoritmeihin puuttumista. Noin 1 000 itse lajitellun sähköpostin jälkeen suodatin toimii itsenäisesti. Bayes-suodatin jatkaa oppimista myös myöhemmän uudelleenlajittelun aikana.
c) Tietokanta perustuvat ratkaisut. Erityisesti mainossähköpostit sisältävät erilaisia tietoja, joiden pitäisi johtaa konkreettiseen yhteydenottoon. Tähän kuuluu ennen kaikkea URL-osoite, joka on tarkoitettu Verkkosivusto ja puhelinnumero. Tietokantapohjaiset ratkaisut käyttävät algoritmeja näiden tietojen etsimiseen. Jos ne löytyvät, postit lajitellaan. Tällaisten menetelmien onnistumisprosenttia voidaan pitää erittäin hyvänä. On totta, että voit suunnitella mainossähköposteja yhä uudelleen ja uudelleen ja siten rajattomasti, mutta tietyt tiedot pysyvät aina samoina.
Roskapostisuodattimen virhemäärät
Roskapostiviestit ovat kehittyneet viime aikoina yhä pidemmälle. Tämän vuoksi roskapostisuodatinsovelluksen on kehityttävä jatkuvasti. Tähän liittyy vaivaa ja kustannuksia, minkä vuoksi jotkut palveluntarjoajat veloittavat mahdollisesta palvelusta. Lisäksi ohjelmien avulla tapahtuvaan lajitteluun liittyy virhetaso, jota voidaan kuitenkin vähentää harjoittelulla. Väärän negatiivinen tunnistus tarkoittaa sitä, että roskapostiviestit päätyvät tavalliseen postilaatikkoon; väärä positiivinen tunnistus taas tarkoittaa sitä, että tavalliset viestit luullaan roskapostiksi. Optimointitoimenpiteet vähentävät väärien negatiivisten tunnisteiden virhetasoa kymmenestä yhteen prosenttiin, mutta väärien positiivisten tunnisteiden luokittelu pyrkii kohti nollaa.
Tunnettu roskapostisuodatin on esimerkiksi SpamAssassinjota useimmat sähköpostipalveluntarjoajat käyttävät.