垃圾邮件过滤器

垃圾邮件过滤器中的英文名词 "spam "可以翻译成德语Abfall。原指肉罐头。在資訊科技界,這指的是未經收件人要求而發出的電子訊息。它们通常包含广告。根据汉堡统计门户网站Statista的研究,2014年全球垃圾邮件数量为280亿封。这是一个全球性的问题,要借助垃圾邮件过滤器来解决;具体来说,就是要用计算机程序把不需要的信息分拣出来。这种不需要的邮件的始作俑者被称为垃圾邮件发送者,这个过程被称为垃圾邮件或垃圾邮件。

垃圾邮件过滤器的应用领域

传统上,垃圾邮件过滤器的使用仅限于分拣出不需要的电子邮件。为此,借助算法构建了电子邮件程序和邮件服务器的模块。然而,由于过去互联网上广告的重要性越来越高,新的程序也会过滤页面。更具体地说,垃圾邮件过滤器还用于网络浏览器、维基和博客。

垃圾邮件过滤器的工作方法

垃圾邮件过滤器会接收到与邮件直接相关的信息。这可以是邮件本身的内容,也可以有限度地检查邮件的发件人。三种方法已成为定式。
(a) 黑名单方法.黑名单就是 "黑名单",是不受欢迎的联系人的代名词。在内容上,这样的列表列出了一定的表达方式和关键词。算法会在邮件中搜索这些关键词,如果找到这些关键词,就会导致邮件被分拣出来。同样的程序可以延伸到发件人。许多按照黑名单方法工作的垃圾邮件过滤器已经包含了一个庞大的数据库。用户可以根据个人需要对这个数据库进行扩展。

垃圾邮件信封

b) 贝叶斯滤波法。贝叶斯滤波法以概率理论为基础,需要用户的合作,特别是在开始时。如果设置正确,它优于黑名单方法。在这种方法中,用户必须将收到的邮件识别为 垃圾邮件 对垃圾邮件和非垃圾邮件进行分类。贝叶斯过滤器在后台学习规则,不需要对算法进行任何干预。在大约1,000封自我分类的邮件之后,过滤器独立工作。贝叶斯过滤器在随后的重新排序过程中也会继续学习。
(c) 数据库 基于的解决方案。特别是广告邮件,包含一系列的数据,目的是为了引导到特定的联系人。这包括,最重要的是,一个URL的 网站 和电话号码。基于数据库的解决方案使用算法来搜索这些信息。如果发现了,邮件就会被整理出来。这种程序的成功率可以说是非常好的。虽然广告邮件可以反复设计,因此数量不限,但某些数据始终保持不变。

垃圾邮件过滤器的错误率

垃圾邮件在过去已经变得越来越复杂。因此,垃圾邮件过滤器的应用必须不断发展。这涉及到努力和成本,这就是为什么一些供应商对任何服务都要收费的原因。此外,通过程序进行排序会有一定的错误率,但可以通过训练来降低错误率。假阴性检测是指垃圾邮件到达普通收件箱;假阳性检测是指正常邮件被误认为是垃圾邮件。虽然优化措施将假阴性检测的错误率降低到百分之十到百分之一,但假阳性检测却趋向于零。

一个已知的垃圾邮件过滤器是例如 SpamAssassin大多数电子邮件提供商使用的。

 

当前文章