贝叶斯垃圾邮件过滤器根据其内容计算邮件是垃圾邮件的概率。与简单的基于内容的过滤器不同,贝叶斯垃圾邮件过滤从垃圾邮件和好邮件中学习,从而产生非常强大,适应性强且有效的反垃圾邮件方法,最重要的是,几乎不会产生任何误报。
你如何识别垃圾邮件?
想想你如何检测垃圾邮件。快速浏览一下就足够了。你知道什么是垃圾邮件,你知道什么是好邮件。
垃圾邮件看起来像好邮件的概率大约为零。
评分基于内容的筛选器不适应
如果自动垃圾邮件过滤器也能像这样工作那么不是很好吗?
对基于内容的垃圾邮件过滤器进行评分就是这样。他们寻找垃圾邮件中典型的单词和其他特征。为每个特征元素分配一个分数,并根据各个分数计算整个消息的垃圾邮件分数。一些评分过滤器还会查找合法邮件的特征,从而降低邮件的最终得分。
评分过滤器方法确实有效,但它也有几个缺点:
- 特征列表是根据过滤器工程师可用的垃圾邮件(以及好邮件)构建的。为了更好地掌握任何人可能获得的典型垃圾邮件,必须在数百个电子邮件地址收集邮件。这削弱了过滤器的效率,特别是因为 好邮件的特征对每个人来说都是不同的 ,但这没有考虑在内。
- 要寻找的特征或多或少 一成不变的 。如果垃圾邮件发送者努力适应(并使他们的垃圾邮件看起来像过滤器的好邮件),则必须手动调整过滤特性 - 这是一个更大的努力。
- 分配给每个单词的分数可能基于良好的估计,但它仍然是任意的。就像特征列表一样,它既不适应不断变化的垃圾邮件世界,也不适应个人用户的需求。
贝叶斯垃圾邮件过滤器调整自己,变得越来越好
贝叶斯垃圾邮件过滤器也是一种基于内容的评分过滤器。他们的方法消除了简单评分垃圾邮件过滤器的问题,但它确实如此彻底。由于评分过滤器的弱点在于手动构建的特征及其分数列表,因此该列表被消除。
相反,贝叶斯垃圾邮件过滤器会自己构建列表。理想情况下,您从一大堆已被归类为垃圾邮件的电子邮件和另一堆好邮件开始。过滤器同时查看并分析合法邮件和垃圾邮件,以计算垃圾邮件和好邮件中出现各种特征的概率。
贝叶斯垃圾邮件过滤器如何检查电子邮件
贝叶斯垃圾邮件过滤器可以查看的特征可以是:
- 当然,和消息正文中的文字
- 它的标题(发件人和消息路径,例如!),但也
- 其他方面,如HTML / CSS代码(如颜色和其他格式),甚至
- 单词对,短语和
- 元信息(例如,出现特定短语)。
例如,如果单词“笛卡尔”从未出现在垃圾邮件中,但通常出现在您收到的合法电子邮件中,则“笛卡尔”表示垃圾邮件的概率几乎为零。另一方面,“碳粉”专门出现在垃圾邮件中。 “Toner”在垃圾邮件中被发现的可能性非常高,不会低于1(100%)。
当新消息到达时,它将由贝叶斯垃圾邮件过滤器进行分析,并使用各个特征计算完整邮件是垃圾邮件的概率。
假设消息包含“笛卡尔”和“墨粉”。仅凭这些词语,目前尚不清楚我们是否有垃圾邮件或合法邮件。其他特征(希望并且很可能)表示允许过滤器将消息分类为垃圾邮件或好邮件的概率。
贝叶斯垃圾邮件过滤器可以自动学习
现在我们有了分类,该消息可用于进一步训练过滤器本身。在这种情况下,要么指示好邮件的“笛卡尔”的概率降低(如果发现包含“笛卡尔”和“墨粉”的消息都是垃圾邮件),或者必须重新考虑指示垃圾邮件的“墨粉”的概率。
使用这种自适应技术,贝叶斯过滤器可以 从自己和用户的决定中学习 (如果她通过过滤器手动纠正错误判断)。贝叶斯过滤的适应性也确保它们对于个人电子邮件用户最有效。虽然大多数人的垃圾邮件可能具有相似的特征,但合法邮件对于每个人来说都是不同的。
垃圾邮件发送者如何通过贝叶斯过滤器?
合法邮件的特征对于贝叶斯垃圾邮件过滤过程与垃圾邮件一样重要。如果过滤器是专门针对每个用户进行培训的,那么垃圾邮件发送者将更难以解决每个人(甚至大多数人)的垃圾邮件过滤器,并且过滤器可以适应垃圾邮件发送者尝试的几乎所有内容。
垃圾邮件发送者只会让它经过训练有素的贝叶斯过滤器,如果他们的垃圾邮件看起来像每个人可能得到的普通电子邮件一样。
垃圾邮件发送者通常不会发送此类普通电子邮件。我们假设这是因为这些电子邮件不能用作垃圾邮件。因此,当普通的,无聊的电子邮件成为通过垃圾邮件过滤器的唯一途径时,他们很可能不会这样做。
但是,如果垃圾邮件发送者确实切换到看起来很普通的电子邮件,我们会再次在收件箱中看到大量垃圾邮件,电子邮件可能会像贝叶斯时代之前的情况一样令人沮丧(甚至更糟)。但它也会破坏大多数垃圾邮件的市场,因此不会持续很长时间。
强指标可以是贝叶斯垃圾邮件过滤器的致命弱点
垃圾邮件发送者可以通过贝叶斯过滤器来处理一个例外,即使是通常的内容也是如此。贝叶斯统计数据的本质是,在好邮件中经常出现的一个词或特征可能非常重要,以至于将任何消息看起来像垃圾邮件一样被过滤器评为火腿。
如果垃圾邮件发送者找到了一种方法来确定您的确定邮件的好邮件 - 例如,通过使用HTML回执来查看您打开的邮件 - ,他们可以将其中一封邮件包含在垃圾邮件中,并通过以下方式与您联系训练有素的贝叶斯滤波器。
John Graham-Cumming通过让两个贝叶斯过滤器相互作用来尝试这一点,“坏”过滤器适应哪些消息被发现通过“好”过滤器。他说这很有效,尽管这个过程非常耗时且复杂。我们认为我们不会发现这种情况发生了很多,至少没有大规模发生,并且不适合个人的电子邮件特征。垃圾邮件发送者可能(尝试)为组织找出一些关键字(对于IBM的某些人来说,类似“Almaden”的东西?)。
通常,垃圾邮件总是(明显)与普通邮件不同,或者它不会是垃圾邮件。
底线:贝叶斯过滤的力量可能是它的弱点
贝叶斯垃圾邮件过滤器是基于内容的过滤器 那:
- 是经过专门培训,能够识别个人电子邮件用户的垃圾邮件和好邮件,使它们高效,难以适应垃圾邮件发送者。
- 可以不断地,不需要太多努力或手动分析适应 对垃圾邮件发送者的最新技巧。
- 将个人用户的好邮件考虑在内并拥有一个非常好的邮件误报率低.
- 不幸的是,如果这导致对贝叶斯反垃圾邮件过滤器的盲目信任,它就会呈现出来偶尔的错误甚至更严重。相反的效果假阴性 (看起来与普通邮件完全相同的垃圾邮件)可能会打扰并挫败用户。




