Английското съществително "спам" във филтъра за спам може да се преведе с немската дума Abfall. Първоначално означава консервирано месо. В сектора на информационните технологии се отнася до нежелани електронни съобщения, т.е. те се доставят, без да отговарят на желанията на получателя. В повечето случаи те съдържат реклама. Според проучване на базирания в Хамбург статистически портал Statista през 2014 г. броят на спам имейлите в света е бил 28 милиарда. Това е глобален проблем, който се решава с помощта на филтър за спам; по-конкретно нежеланите съобщения трябва да се сортират от компютърна програма. Изпращачът на такава нежелана поща се нарича спамер, а процесът се нарича спаминг или разпращане на спам.
Области на приложение на филтъра за спам
Класически спам филтърът се използваше само за сортиране на нежелани имейли. За тази цел с помощта на алгоритми бяха изградени модули за програми за електронна поща и пощенски сървъри. Въпреки това, тъй като значението на рекламата в интернет се увеличава все повече в миналото, по-новите програми също филтрират страници. Филтрите за спам се използват и за уеб браузъри, уикита и блогове.
Работни методи на филтъра за спам
Спам филтрите улавят информация, която е пряко свързана с дадено писмо. От една страна, това може да бъде съдържанието на самата поща, но в ограничена степен може да се провери и подателят на съобщението. Установени са три метода:
а) Метод на черния списък. Черният списък е "черен списък", който е синоним на нежелан контакт. От гледна точка на съдържанието, в такъв списък са изброени определени изрази и ключови думи. Алгоритъмът търси в пощата тези ключови думи; ако намери такива, пощата се подрежда. Същата процедура може да бъде разширена и по отношение на изпращача. Много филтри за спам, които работят по метода на черния списък, вече съдържат обширна база данни. Потребителите могат да разширят тази част в зависимост от личните си нужди.
б) Метод на филтъра на Бейс. Методът на филтъра на Бейс се основава на теорията на вероятностите и изисква съдействието на потребителя, особено в началото. Ако е правилно настроен, той е по-добър от метода на черния списък. При този метод потребителят трябва да идентифицира получените писма като Спам класифициране на спам или не спам. Байесовият филтър научава правилата във фонов режим без никаква намеса в алгоритмите. След около 1000 самостоятелно сортирани писма филтърът работи самостоятелно. Байесовият филтър продължава да се учи и при последващото пресортиране.
в) База данни базирани на решения. По-специално рекламните писма съдържат редица данни, които трябва да доведат до конкретен контакт. Това включва преди всичко URL адреса на Уебсайт и телефонния номер. Решенията, базирани на бази данни, използват алгоритми за търсене на тази информация. Ако бъдат открити, пощата се подрежда. Процентът на успеваемост на тези методи може да се определи като много добър. Вярно е, че можете да променяте дизайна на рекламните писма отново и отново и по този начин в неограничен брой; някои данни обаче винаги остават същите.
процент на грешки на филтрите за спам
В миналото спам имейлите ставаха все по-усъвършенствани. В резултат на това приложението за филтриране на спам трябва да продължи да се развива. Това е свързано с усилия и разходи, поради което някои доставчици събират такса за евентуална услуга. Освен това сортирането с помощта на програми е свързано с процент грешки, който обаче може да бъде намален чрез обучение. Фалшиво отрицателно откриване е, когато спам писма попадат в обикновената входяща поща; от друга страна, фалшиво положително откриване е, когато нормални писма се приемат за спам. Докато мерките за оптимизация намаляват процента на грешка при фалшиво отрицателно разпознаване до десет до един процент, фалшиво положителната класификация клони към нула.
Добре познат филтър за спам е например SpamAssassinкоято се използва от повечето доставчици на електронна поща.