代码之家  ›  专栏  ›  技术社区  ›  Arseni Mourzenko

Gmail垃圾邮件过滤器是如何工作的?

  •  4
  • Arseni Mourzenko  · 技术社区  · 14 年前

    我总是对Gmail垃圾邮件过滤器的高质量感到惊讶。在过去的一年里,它过滤了99.95%的垃圾邮件,并且错误地只屏蔽了一封邮件。相比之下,我使用的任何其他邮件服务,每50封邮件中至少有一个错误。

    Gmail如何在内部达到这样的质量水平?是否基于客户反馈(如 客户将邮件封为垃圾邮件,其他每一位客户都将其分类为垃圾邮件)?还是有什么把戏?也许一个基本的过滤算法可以过滤最明显的垃圾邮件,而一些困难的案例是由真人分析的?

    5 回复  |  直到 14 年前
        1
  •  8
  •   UserPioneer    14 年前

    简而言之,这是基于 社区反馈 . 以下是官方解释的引文:

    Gmail用户在防止垃圾邮件进入数百万个收件箱方面发挥着重要作用。当Gmail社区通过点击投票将某个特定的电子邮件报告为垃圾邮件时,我们的系统会很快学会阻止类似的邮件。社区标记的垃圾邮件越多,我们的系统就越智能。

    你可以在他们的网站上多读一点 Spam Explained

        2
  •  7
  •   Fosco    14 年前

    这是一个百万美元的问题,如果它能够在stackOverflow上得到回答,那么每个人的垃圾邮件过滤器都会同样有效。

        3
  •  2
  •   WebMonster    14 年前

    http://en.wikipedia.org/wiki/Bayesian_spam_filtering ). 这是一种很容易理解的方法。

        4
  •  0
  •   JMoser    8 年前

    谷歌最有可能使用分类系统,如逻辑回归或神经网络。最先进的垃圾邮件检测技术经常采用这样的机器学习算法。

    输出分类是“垃圾邮件”或“非垃圾邮件”,输入,我敢肯定,是谷歌的最高机密,但我敢肯定某些电子邮件文本短语,如“立即购买”、“特价”、“伟哥”或“男性增强”都是他们模型中的因素。

        5
  •  0
  •   Dibya Sahoo    6 年前

    关于这一点,目前还没有官方发布,大多数建议只是观察/专家观点。

    1.用户参与是关键: 如果用户没有参与你的电子邮件,那么你的电子邮件一定会被标记为垃圾邮件。 以下是一些指标: -你打开了哪些邮件 -你回复了哪些邮件

    2.发件人域信誉: 发送域的过去历史是什么?如果在过去,用户参与度更高,那么来自同一域的新电子邮件在收件箱中登陆的概率就很高。