O substantivo inglês "spam" no filtro de spam pode ser traduzido como a palavra alemã Abfall. Originalmente, refere-se à carne enlatada. No setor de TI, isto se refere a mensagens eletrônicas não solicitadas; ou seja, são entregues sem o pedido do destinatário. Normalmente, eles contêm publicidade. De acordo com a pesquisa do portal estatístico Statista de Hamburgo, o número de e-mails de spam no mundo inteiro em 2014 foi de 28 bilhões. Este é um problema global que é resolvido com a ajuda de um filtro de spam; especificamente, as mensagens indesejadas devem ser resolvidas por um programa de computador. O originador de tais e-mails indesejados é chamado de spammer, o processo é chamado de spamming ou spamming.
Áreas de aplicação de um filtro de spam
Classicamente, o uso de um filtro de spam era limitado à separação de e-mails indesejados. Para este fim, foram construídos módulos para programas de e-mail e servidores de e-mail com a ajuda de algoritmos. Entretanto, como a importância da publicidade na Internet tem aumentado cada vez mais no passado, programas mais recentes também filtram as páginas. Mais especificamente, os filtros de spam também são usados para navegadores da web, wikis e blogs.
Métodos de trabalho de um filtro de spam
Os filtros de spam captam informações que estão diretamente relacionadas a um correio. Este pode ser o conteúdo do próprio correio, mas também o originador de uma mensagem pode ser verificado de forma limitada. Três métodos foram estabelecidos:
(a) O Método da lista negra. Uma lista negra é uma "lista negra" que é sinônimo de um contato indesejado. Em termos de conteúdo, tal lista enumera certas expressões e palavras-chave. Um algoritmo procura estas palavras-chave em um correio; se encontrar tais palavras-chave, fará com que um correio seja ordenado. O mesmo procedimento pode ser estendido ao remetente. Muitos filtros de spam que funcionam de acordo com o método da lista negra já contêm um extenso banco de dados. Os usuários podem ampliar este banco de dados de acordo com suas necessidades pessoais.
b) O método de filtragem Bayes. O método de filtro Bayes é baseado na teoria da probabilidade e requer a cooperação do usuário, especialmente no início. Se for configurado corretamente, ele é superior ao método da lista negra. Neste método, o usuário deve identificar os e-mails recebidos como Spam classificar spam ou não-spam. O filtro Bayesiano aprende as regras em segundo plano sem qualquer intervenção nos algoritmos. Após cerca de 1.000 e-mails auto-selecionados, o filtro funciona independentemente. O filtro Bayesian também continua a aprender no curso de uma reordenação subseqüente.
(c) O Base de dados soluções baseadas. Os e-mails publicitários, em particular, contêm uma série de dados que se destinam a levar a um contato específico. Isto inclui, acima de tudo, o URL de um website e o número de telefone. As soluções baseadas em banco de dados utilizam algoritmos para pesquisar estas informações. Se forem encontrados, os correios são classificados. A taxa de sucesso de tais procedimentos pode ser descrita como muito boa. Embora os e-mails de publicidade possam ser redesenhados repetidamente e, portanto, em um número ilimitado, certos dados permanecem sempre os mesmos.
Taxas de erro dos filtros de spam
Os e-mails de spam se tornaram cada vez mais sofisticados no passado. Como resultado, a aplicação do filtro de spam tem que evoluir. Isto envolve esforço e custos, e é por isso que alguns provedores cobram taxas por qualquer serviço. Além disso, a classificação por meio de programas está associada a uma taxa de erro, mas esta pode ser reduzida por meio de treinamento. A detecção de falsos negativos é quando os e-mails de spam chegam à caixa de entrada normal; a detecção de falsos positivos é quando os e-mails normais são confundidos com spam. Enquanto as medidas de otimização reduzem a taxa de erro de detecção de falsos negativos para dez a um por cento, a detecção de falsos positivos tende a zero.
Um filtro de spam conhecido é, por exemplo SpamAssassinque é usado pela maioria dos provedores de e-mail.