Angielski rzeczownik "spam" w filtrze spamu może być przetłumaczony jako niemieckie słowo Abfall. Pierwotnie odnosi się do konserw mięsnych. W sektorze IT odnosi się to do niezamówionych wiadomości elektronicznych, tzn. są one dostarczane bez żądania odbiorcy. Zazwyczaj zawierają one reklamy. Według badań przeprowadzonych przez hamburski portal statystyczny Statista, liczba spamu na świecie w 2014 r. wyniosła 28 mld. Jest to problem globalny, który jest rozwiązywany za pomocą filtra antyspamowego; w szczególności niechciane wiadomości mają być sortowane przez program komputerowy. Generator takiej niechcianej poczty nazywany jest spammerem, proces ten nazywany jest spamowaniem lub spamowaniem.
Obszary zastosowania filtra antyspamowego
Klasycznie, stosowanie filtra antyspamowego ograniczało się do sortowania niechcianych wiadomości e-mail. W tym celu zbudowano za pomocą algorytmów moduły dla programów pocztowych i serwerów pocztowych. Jednakże, ponieważ znaczenie reklamy w Internecie wzrastało coraz bardziej w przeszłości, nowsze programy również filtrują strony. W szczególności, filtry antyspamowe są również stosowane w przeglądarkach internetowych, wiki i blogach.
Metody pracy filtra antyspamowego
Filtry antyspamowe zbierają informacje, które są bezpośrednio związane z pocztą. Może to być treść samej wiadomości, ale również w ograniczonym zakresie można sprawdzić, kto jest jej autorem. Ustanowiono trzy metody:
(a) Metoda czarnej listy. Czarna lista to "czarna lista", która jest synonimem niechcianego kontaktu. Jeśli chodzi o treść, to taka lista zawiera pewne wyrażenia i słowa kluczowe. Algorytm przeszukuje pocztę w poszukiwaniu tych słów kluczowych; jeśli znajdzie takie słowa kluczowe, spowoduje to, że poczta zostanie uporządkowana. Ta sama procedura może zostać rozszerzona na nadawcę. Wiele filtrów antyspamowych, które działają zgodnie z metodą czarnej listy, zawiera już obszerną bazę danych. Użytkownicy mogą rozszerzać tę bazę danych w zależności od swoich osobistych potrzeb.
b) Metoda filtra Bayesa. Metoda filtru Bayesa oparta jest na teorii prawdopodobieństwa i wymaga współpracy użytkownika, zwłaszcza na początku. Jeśli jest skonfigurowany poprawnie, jest lepszy od metody czarnej listy. W tym przypadku użytkownik musi zidentyfikować otrzymane wiadomości jako Spam sklasyfikować spam lub nie-spam. Filtr Bayesa uczy się reguł w tle, bez żadnej ingerencji w algorytmy. Po około 1000 samodzielnie posortowanych mailach filtr działa samodzielnie. Filtr bayesowski kontynuuje naukę również w trakcie kolejnych ponownych sortowań.
(c) The Baza danych rozwiązania oparte na. Zwłaszcza maile reklamowe zawierają szereg danych, które powinny prowadzić do konkretnego kontaktu. Dotyczy to przede wszystkim adresu URL strona internetowa i numer telefonu. Rozwiązania oparte na bazach danych wykorzystują algorytmy do wyszukiwania tych informacji. Jeśli zostaną znalezione, wiadomości są sortowane. Wskaźnik powodzenia takich procedur można określić jako bardzo dobry. Chociaż wiadomości reklamowe mogą być wielokrotnie przeprojektowywane i tym samym w nieograniczonej liczbie, pewne dane pozostają zawsze takie same.
Wskaźniki błędów filtrów antyspamowych
Spamowe wiadomości stały się w przeszłości coraz bardziej wyrafinowane. W związku z tym aplikacja filtrująca spam musi ewoluować. Wiąże się to z wysiłkiem i kosztami, dlatego niektórzy dostawcy naliczają opłaty za każdą usługę. Ponadto, sortowanie za pomocą programów wiąże się z poziomem błędów, ale można go zredukować poprzez szkolenie. Fałszywe negatywne wykrycie ma miejsce wtedy, gdy spam dociera do zwykłej skrzynki odbiorczej; fałszywe pozytywne wykrycie ma miejsce wtedy, gdy zwykłe wiadomości są mylone ze spamem. Podczas gdy środki optymalizacyjne zmniejszają wskaźnik błędów fałszywie ujemnych do dziesięciu do jednego procenta, fałszywie dodatnie wykrywanie ma tendencję do zera.
Znanym filtrem antyspamowym jest na przykład SpamAssassinktóry jest używany przez większość dostawców poczty elektronicznej.