Enciklopedija

Šlamšto filtras

Anglų kalbos daiktavardis "spam" žodyje spam filter gali būti perteiktas vokišku žodžiu Abfall. Iš pradžių tai reiškia mėsos konservus. Informacinių technologijų sektoriuje tai reiškia nepageidaujamus elektroninius pranešimus, t. y. pranešimus, kurie siunčiami nesilaikant gavėjo pageidavimų. Dažniausiai juose pateikiama reklama. Hamburge įsikūrusio statistikos portalo "Statista" atlikto tyrimo duomenimis, 2014 m. visame pasaulyje buvo išsiųsta 28 mlrd. nepageidaujamų elektroninių laiškų. Tai visuotinė problema, kuri sprendžiama naudojant nepageidaujamų laiškų filtrą; konkrečiai, nepageidaujamus pranešimus turi išrūšiuoti kompiuterinė programa. Tokių nepageidaujamų laiškų siuntėjas vadinamas nepageidaujamų laiškų siuntėju, o procesas - nepageidaujamų laiškų siuntimu arba šiukšlinimu.

Nepageidaujamų laiškų filtro taikymo sritys

Įprastai nepageidaujamų laiškų filtras buvo naudojamas tik nepageidaujamiems laiškams rūšiuoti. Tam tikslui algoritmų pagalba buvo sukurti el. pašto programų ir pašto serverių moduliai. Tačiau, kadangi praeityje vis labiau didėjo reklamos internete svarba, naujesnės programos taip pat filtruoja puslapius. Šlamšto filtrai taip pat naudojami interneto naršyklėse, vikipedijose ir tinklaraščiuose.

Nepageidaujamų laiškų filtro veikimo metodai

Šlamšto filtrai renka informaciją, tiesiogiai susijusią su laišku. Viena vertus, tai gali būti pats laiško turinys, tačiau ribotai galima patikrinti ir laiško siuntėją. Įsitvirtino trys metodai:
a) Juodojo sąrašo metodas. Juodasis sąrašas - tai "juodasis sąrašas", kuris yra nepageidaujamo kontakto sinonimas. Kalbant apie turinį, tokiame sąraše išvardijami tam tikri išsireiškimai ir raktiniai žodžiai. Algoritmas ieško šių raktažodžių laiške; jei jų randa, laiškas išrūšiuojamas. Tą pačią procedūrą galima taikyti ir siuntėjui. Daugelyje nepageidaujamų laiškų filtrų, veikiančių pagal juodojo sąrašo metodą, jau yra didelė duomenų bazė. Vartotojai gali iš dalies išplėsti šią funkciją pagal savo asmeninius poreikius.

b) Bajeso filtro metodas. Bajeso filtro metodas pagrįstas tikimybių teorija ir reikalauja naudotojo bendradarbiavimo, ypač pradžioje. Jei jis tinkamai nustatytas, jis yra pranašesnis už juodojo sąrašo metodą. Taikant šį metodą naudotojas turi identifikuoti gautus laiškus kaip Spam klasifikuoti nepageidaujamas ir nepageidaujamas žinutes. Bajeso filtras mokosi taisyklių fone be jokio įsikišimo į algoritmus. Maždaug po 1000 savarankiškai surūšiuotų laiškų filtras veikia savarankiškai. Bajeso filtras taip pat toliau mokosi ir atliekant vėlesnį pakartotinį rūšiavimą.
c) Duomenų bazė pagrįsti sprendimai. Ypač reklaminiuose laiškuose pateikiama daug duomenų, kurie turėtų padėti užmegzti konkretų kontaktą. Tai visų pirma apima URL adresą Interneto svetainė ir telefono numerį. Duomenų bazėmis pagrįstuose sprendimuose šiai informacijai ieškoti naudojami algoritmai. Jei jie randami, laiškai surūšiuojami. Tokių metodų sėkmės rodiklį galima apibūdinti kaip labai gerą. Tiesa, kad reklaminius laiškus galima perkurti vėl ir vėl, taigi neribotai, tačiau tam tikri duomenys visada išlieka tie patys.

nepageidaujamų laiškų filtrų klaidų lygis

Praeityje nepageidaujami el. laiškai tapo vis sudėtingesni. Todėl nepageidaujamų laiškų filtravimo programa turi toliau tobulėti. Tai susiję su pastangomis ir išlaidomis, todėl kai kurie paslaugų teikėjai už galimą paslaugą ima mokestį. Be to, rūšiavimas programomis yra susijęs su klaidų dažniu, kurį galima sumažinti mokant. Klaidingai neigiamas aptikimas yra tada, kai nepageidaujami laiškai patenka į įprastą pašto dėžutę; kita vertus, klaidingai teigiamas aptikimas yra tada, kai įprasti laiškai klaidingai laikomi nepageidaujamais. Optimizavimo priemonės sumažina klaidingai neigiamo atpažinimo klaidų lygį iki dešimties ar vieno procento, o klaidingai teigiamas klasifikavimas artėja prie nulio.

Gerai žinomas nepageidaujamų laiškų filtras yra, pvz. SpamAssassinkurią naudoja dauguma el. pašto paslaugų teikėjų.