Substantivul englezesc "spam" din spam filter poate fi redat prin cuvântul german Abfall. Inițial, înseamnă conserve de carne. În sectorul IT, se referă la mesajele electronice nedorite, adică transmise fără a fi în conformitate cu dorința destinatarului. În general, acestea conțin publicitate. Potrivit unui studiu realizat de portalul de statistică Statista, cu sediul la Hamburg, numărul de e-mailuri spam la nivel mondial a fost de 28 de miliarde în 2014. Este o problemă globală care se rezolvă cu ajutorul unui filtru de spam; mai exact, mesajele nedorite trebuie să fie sortate de un program de calculator. Autorul unei astfel de corespondențe nedorite se numește spammer, iar procesul se numește spamming sau spamming.
Domenii de aplicare a unui filtru de spam
În mod clasic, utilizarea unui filtru de spam se limita la sortarea e-mailurilor nedorite. În acest scop, au fost construite module pentru programele de e-mail și serverele de poștă electronică cu ajutorul algoritmilor. Cu toate acestea, deoarece importanța publicității pe internet a crescut din ce în ce mai mult în trecut, programele mai noi filtrează și paginile. Filtrele de spam sunt utilizate, în special, pentru browsere web, wikis și bloguri.
Metode de lucru ale unui filtru de spam
Filtrele de spam detectează informațiile care au legătură directă cu un mesaj. Pe de o parte, poate fi vorba de conținutul mesajului în sine, dar și de autorul unui mesaj poate fi verificat într-o măsură limitată. S-au stabilit trei metode:
a) Metoda listei negre. O listă neagră este o "listă neagră" care este sinonimă cu un contact nedorit. Din punct de vedere al conținutului, o astfel de listă enumeră anumite expresii și cuvinte-cheie. Un algoritm caută aceste cuvinte cheie într-un mesaj; dacă găsește vreunul, mesajul este sortat. Aceeași procedură poate fi extinsă și la expeditor. Multe filtre de spam care funcționează conform metodei listei negre conțin deja o bază de date extinsă. Utilizatorii pot extinde parțial acest lucru în funcție de nevoile lor personale.
b) Metoda filtrului Bayes. Metoda filtrului Bayes se bazează pe teoria probabilităților și necesită cooperarea utilizatorului, în special la început. Dacă este configurată corect, este superioară metodei listei negre. În această metodă, utilizatorul trebuie să identifice mesajele primite ca fiind Spam să clasifice spam sau non-spam. Filtrul bayesian învață regulile în fundal, fără nicio intervenție în algoritmi. După aproximativ 1.000 de e-mailuri sortate automat, filtrul funcționează independent. De asemenea, filtrul bayesian continuă să învețe și în cursul reorânduirii ulterioare.
c) Baza de date bazate pe soluții. În special e-mailurile publicitare conțin o serie de date care ar trebui să conducă la un contact concret. Aceasta include, în primul rând, URL-ul unui Site web și numărul de telefon. Soluțiile bazate pe baze de date utilizează algoritmi pentru a căuta aceste informații. În cazul în care acestea sunt găsite, mesajele sunt sortate. Rata de succes a acestor metode poate fi descrisă ca fiind foarte bună. Este adevărat că puteți reproiecta e-mailurile publicitare la nesfârșit și, astfel, într-un număr nelimitat; totuși, anumite date rămân mereu aceleași.
ratele de eroare ale filtrelor de spam
E-mailurile spam au devenit din ce în ce mai sofisticate în trecut. Prin urmare, aplicația de filtrare a spam-ului trebuie să continue să evolueze. Acest lucru este asociat cu efort și costuri, motiv pentru care unii furnizori taxează pentru un eventual serviciu. În plus, sortarea cu ajutorul programelor este asociată cu o rată de eroare, care poate fi însă redusă prin instruire. Detectarea falsă negativă are loc atunci când mesajele spam intră în căsuța poștală obișnuită; pe de altă parte, detectarea falsă pozitivă are loc atunci când mesajele normale sunt confundate cu spam. În timp ce măsurile de optimizare reduc rata de eroare a recunoașterii fals negative la zece până la unu la sută, clasificarea fals pozitivă tinde spre zero.
Un filtru de spam bine cunoscut este, de exemplu SpamAssassincare este utilizat de majoritatea furnizorilor de e-mail.