什么是贝叶斯垃圾邮件过滤？

贝叶斯垃圾邮件过滤器根据其内容计算邮件是垃圾邮件的概率。与简单的基于内容的过滤器不同，贝叶斯垃圾邮件过滤从垃圾邮件和好邮件中学习，从而产生非常强大，适应性强且有效的反垃圾邮件方法，最重要的是，几乎不会产生任何误报。

你如何识别垃圾邮件？

想想你如何检测垃圾邮件。快速浏览一下就足够了。你知道什么是垃圾邮件，你知道什么是好邮件。

垃圾邮件看起来像好邮件的概率大约为零。

评分基于内容的筛选器不适应

如果自动垃圾邮件过滤器也能像这样工作那么不是很好吗？

对基于内容的垃圾邮件过滤器进行评分就是这样。他们寻找垃圾邮件中典型的单词和其他特征。为每个特征元素分配一个分数，并根据各个分数计算整个消息的垃圾邮件分数。一些评分过滤器还会查找合法邮件的特征，从而降低邮件的最终得分。

评分过滤器方法确实有效，但它也有几个缺点：

特征列表是根据过滤器工程师可用的垃圾邮件（以及好邮件）构建的。为了更好地掌握任何人可能获得的典型垃圾邮件，必须在数百个电子邮件地址收集邮件。这削弱了过滤器的效率，特别是因为好邮件的特征对每个人来说都是不同的，但这没有考虑在内。
要寻找的特征或多或少一成不变的。如果垃圾邮件发送者努力适应（并使他们的垃圾邮件看起来像过滤器的好邮件），则必须手动调整过滤特性 - 这是一个更大的努力。
分配给每个单词的分数可能基于良好的估计，但它仍然是任意的。就像特征列表一样，它既不适应不断变化的垃圾邮件世界，也不适应个人用户的需求。

贝叶斯垃圾邮件过滤器调整自己，变得越来越好

贝叶斯垃圾邮件过滤器也是一种基于内容的评分过滤器。他们的方法消除了简单评分垃圾邮件过滤器的问题，但它确实如此彻底。由于评分过滤器的弱点在于手动构建的特征及其分数列表，因此该列表被消除。

相反，贝叶斯垃圾邮件过滤器会自己构建列表。理想情况下，您从一大堆已被归类为垃圾邮件的电子邮件和另一堆好邮件开始。过滤器同时查看并分析合法邮件和垃圾邮件，以计算垃圾邮件和好邮件中出现各种特征的概率。

贝叶斯垃圾邮件过滤器如何检查电子邮件

贝叶斯垃圾邮件过滤器可以查看的特征可以是：

当然，和消息正文中的文字
它的标题（发件人和消息路径，例如！），但也
其他方面，如HTML / CSS代码（如颜色和其他格式），甚至
单词对，短语和
元信息（例如，出现特定短语）。

例如，如果单词“笛卡尔”从未出现在垃圾邮件中，但通常出现在您收到的合法电子邮件中，则“笛卡尔”表示垃圾邮件的概率几乎为零。另一方面，“碳粉”专门出现在垃圾邮件中。 “Toner”在垃圾邮件中被发现的可能性非常高，不会低于1（100％）。

当新消息到达时，它将由贝叶斯垃圾邮件过滤器进行分析，并使用各个特征计算完整邮件是垃圾邮件的概率。

假设消息包含“笛卡尔”和“墨粉”。仅凭这些词语，目前尚不清楚我们是否有垃圾邮件或合法邮件。其他特征（希望并且很可能）表示允许过滤器将消息分类为垃圾邮件或好邮件的概率。

贝叶斯垃圾邮件过滤器可以自动学习

现在我们有了分类，该消息可用于进一步训练过滤器本身。在这种情况下，要么指示好邮件的“笛卡尔”的概率降低（如果发现包含“笛卡尔”和“墨粉”的消息都是垃圾邮件），或者必须重新考虑指示垃圾邮件的“墨粉”的概率。

使用这种自适应技术，贝叶斯过滤器可以从自己和用户的决定中学习（如果她通过过滤器手动纠正错误判断）。贝叶斯过滤的适应性也确保它们对于个人电子邮件用户最有效。虽然大多数人的垃圾邮件可能具有相似的特征，但合法邮件对于每个人来说都是不同的。

垃圾邮件发送者如何通过贝叶斯过滤器？

合法邮件的特征对于贝叶斯垃圾邮件过滤过程与垃圾邮件一样重要。如果过滤器是专门针对每个用户进行培训的，那么垃圾邮件发送者将更难以解决每个人（甚至大多数人）的垃圾邮件过滤器，并且过滤器可以适应垃圾邮件发送者尝试的几乎所有内容。

垃圾邮件发送者只会让它经过训练有素的贝叶斯过滤器，如果他们的垃圾邮件看起来像每个人可能得到的普通电子邮件一样。

垃圾邮件发送者通常不会发送此类普通电子邮件。我们假设这是因为这些电子邮件不能用作垃圾邮件。因此，当普通的，无聊的电子邮件成为通过垃圾邮件过滤器的唯一途径时，他们很可能不会这样做。

但是，如果垃圾邮件发送者确实切换到看起来很普通的电子邮件，我们会再次在收件箱中看到大量垃圾邮件，电子邮件可能会像贝叶斯时代之前的情况一样令人沮丧（甚至更糟）。但它也会破坏大多数垃圾邮件的市场，因此不会持续很长时间。

强指标可以是贝叶斯垃圾邮件过滤器的致命弱点

垃圾邮件发送者可以通过贝叶斯过滤器来处理一个例外，即使是通常的内容也是如此。贝叶斯统计数据的本质是，在好邮件中经常出现的一个词或特征可能非常重要，以至于将任何消息看起来像垃圾邮件一样被过滤器评为火腿。

如果垃圾邮件发送者找到了一种方法来确定您的确定邮件的好邮件 - 例如，通过使用HTML回执来查看您打开的邮件 - ，他们可以将其中一封邮件包含在垃圾邮件中，并通过以下方式与您联系训练有素的贝叶斯滤波器。

John Graham-Cumming通过让两个贝叶斯过滤器相互作用来尝试这一点，“坏”过滤器适应哪些消息被发现通过“好”过滤器。他说这很有效，尽管这个过程非常耗时且复杂。我们认为我们不会发现这种情况发生了很多，至少没有大规模发生，并且不适合个人的电子邮件特征。垃圾邮件发送者可能（尝试）为组织找出一些关键字（对于IBM的某些人来说，类似“Almaden”的东西？）。

通常，垃圾邮件总是（明显）与普通邮件不同，或者它不会是垃圾邮件。

底线：贝叶斯过滤的力量可能是它的弱点

贝叶斯垃圾邮件过滤器是基于内容的过滤器 那：

是经过专门培训，能够识别个人电子邮件用户的垃圾邮件和好邮件，使它们高效，难以适应垃圾邮件发送者。
可以不断地，不需要太多努力或手动分析适应对垃圾邮件发送者的最新技巧。
将个人用户的好邮件考虑在内并拥有一个非常好的邮件误报率低.
不幸的是，如果这导致对贝叶斯反垃圾邮件过滤器的盲目信任，它就会呈现出来偶尔的错误甚至更严重。相反的效果假阴性 （看起来与普通邮件完全相同的垃圾邮件）可能会打扰并挫败用户。

什么是贝叶斯垃圾邮件过滤？

15贝叶斯算法课时83垃圾邮件过滤实例 (七月 2026)

:

你如何识别垃圾邮件？

评分基于内容的筛选器不适应

贝叶斯垃圾邮件过滤器调整自己，变得越来越好

贝叶斯垃圾邮件过滤器如何检查电子邮件

贝叶斯垃圾邮件过滤器可以自动学习

垃圾邮件发送者如何通过贝叶斯过滤器？

强指标可以是贝叶斯垃圾邮件过滤器的致命弱点

底线：贝叶斯过滤的力量可能是它的弱点

编辑推荐

我们对 5 种非乳制奶油芝士进行了品尝测试，因此您不必

我们对 5 种非乳制奶油芝士进行了品尝测试，因此您不必

哪里可以找到纽约市最好的墨西哥素食食品

三年来我主要以植物为基础学到的 5 件事

20 种最佳非乳制品和素食咖啡奶精

有趣的文章

我们对 5 种非乳制奶油芝士进行了品尝测试，因此您不必

哪里可以找到纽约市最好的墨西哥素食食品

三年来我主要以植物为基础学到的 5 件事

20 种最佳非乳制品和素食咖啡奶精

推荐

我们对 5 种非乳制奶油芝士进行了品尝测试，因此您不必

哪里可以找到纽约市最好的墨西哥素食食品

三年来我主要以植物为基础学到的 5 件事

20 种最佳非乳制品和素食咖啡奶精