O substantivo inglês "spam" no filtro de spam pode ser traduzido como a palavra alemã Abfall. Originalmente, refere-se a carne enlatada. No sector das TI, isto refere-se a mensagens electrónicas não solicitadas, ou seja, são entregues sem o pedido do destinatário. Normalmente, eles contêm publicidade. De acordo com a pesquisa do portal de estatísticas de Hamburgo Statista, o número de e-mails de spam em todo o mundo em 2014 foi de 28 bilhões. Este é um problema global que é resolvido com a ajuda de um filtro de spam; especificamente, as mensagens indesejadas devem ser resolvidas por um programa de computador. O originador de tais e-mails indesejados é chamado de spammer, o processo é chamado de spamming ou spamming.
Áreas de aplicação de um filtro de spam
Classicamente, o uso de um filtro de spam era limitado à separação de e-mails indesejados. Para este fim, foram construídos módulos para programas de e-mail e servidores de e-mail com a ajuda de algoritmos. No entanto, como a importância da publicidade na Internet tem aumentado cada vez mais no passado, os programas mais recentes também filtram páginas. Mais especificamente, os filtros de spam também são usados para navegadores web, wikis e blogs.
Métodos de trabalho de um filtro de spam
Os filtros de spam recolhem informação directamente relacionada com um e-mail. Este pode ser o conteúdo do próprio correio, mas também o originador de uma mensagem pode ser verificado de forma limitada. Três métodos foram estabelecidos:
(a) O Método da lista negra. Uma lista negra é uma "lista negra" que é sinónimo de um contacto indesejado. Em termos de conteúdo, essa lista enumera certas expressões e palavras-chave. Um algoritmo procura essas palavras-chave em um e-mail; se encontrar tais palavras-chave, ele fará com que um e-mail seja ordenado. O mesmo procedimento pode ser estendido ao remetente. Muitos filtros de spam que funcionam de acordo com o método da lista negra já contêm uma extensa base de dados. Os utilizadores podem alargar esta base de dados de acordo com as suas necessidades pessoais.
b) O método de filtragem Bayes. O método do filtro Bayes baseia-se na teoria da probabilidade e requer a cooperação do utilizador, especialmente no início. Se for configurado correctamente, é superior ao método da lista negra. Neste método, o utilizador deve identificar as mensagens recebidas como Spam classificar o spam ou não spam. O filtro Bayesiano aprende as regras em segundo plano sem qualquer intervenção nos algoritmos. Depois de cerca de 1.000 correios auto-selecionados, o filtro funciona independentemente. O filtro Bayesian também continua a aprender no decurso de uma reordenação subsequente.
(c) A Base de dados soluções baseadas. Os e-mails publicitários, em particular, contêm uma série de dados que devem levar a um contacto concreto. Isto inclui, acima de tudo, o URL de um website e o número de telefone. Soluções baseadas em bases de dados utilizam algoritmos para pesquisar esta informação. Se forem encontrados, os e-mails são resolvidos. A taxa de sucesso de tais procedimentos pode ser descrita como muito boa. Embora os e-mails de publicidade possam ser redesenhados repetidamente e, portanto, em número ilimitado, certos dados permanecem sempre os mesmos.
Taxas de erro dos filtros de spam
Os emails de spam se tornaram cada vez mais sofisticados no passado. Como resultado, a aplicação do filtro de spam tem de evoluir. Isto envolve esforço e custos, e é por isso que alguns provedores cobram taxas por qualquer serviço. Além disso, a ordenação por meio de programas está associada a uma taxa de erro, mas esta pode ser reduzida através de treinamento. A detecção de falsos negativos é quando os e-mails de spam chegam à caixa de entrada normal; a detecção de falsos positivos é quando os e-mails normais são confundidos com spam. Enquanto as medidas de otimização reduzem a taxa de erro da detecção de falsos negativos para dez a um por cento, a detecção de falsos positivos tende a zero.
Um filtro de spam conhecido é, por exemplo SpamAssassinque é usado pela maioria dos provedores de e-mail.