代码之家  ›  专栏  ›  技术社区  ›  Stepan Mazurov

垃圾邮件检测服务的最佳语言选择[已关闭]

  •  1
  • Stepan Mazurov  · 技术社区  · 16 年前

    我有大约20个活跃的博客,收到了相当多的垃圾邮件。因为我讨厌CAPCHA,所以另一种选择是非常智能的垃圾邮件过滤。我想构建一个简单的RESTAPI,比如垃圾邮件检查服务,我会在我所有的博客中使用它。这样我就可以整合IP块,并将垃圾邮件检测转移给第三方,如 Akisment Mollom , Defensio

    这需要扩展,我想把它写在心里。现在我可能可以使用第三方的免费计划,但很快我就必须扩展整个计划,真正独立思考。现在,我想我会把所有东西都存储在MySQL数据库中,直到我可以对它进行真正的分析。谢谢

    4 回复  |  直到 16 年前
        1
  •  9
  •   Claudiu    16 年前

    我的第一个问题- 你为什么不使用你列出的三种服务中的一种呢? 看起来他们做的正是你想要的。很抱歉这么玩世不恭,但我怀疑你一个人工作能在合理的时间内打败那些设计这些网站所用算法的软件工程师,特别是考虑到他们的收入来源取决于他们做得如何。

    再说一次,你可能只是比他们更聪明。无论如何,我推荐你 python ,出于您所说的原因,您不需要一个花哨的公共接口,因此python在这方面的不足并不重要。Python也很适合做文本处理,并且它有很好的使用数据库的内置绑定(例如sqlite;如果您觉得有必要,您当然可以安装MySQL)。

        2
  •  2
  •   S.Lott    16 年前

    Python有一些优势。

    1. Python中有几个HTTP服务器框架。看这张照片 WSGI reference implementation ,并学习如何使用WSGI标准处理web请求。它非常干净且可扩展。需要进行一点研究才能看出WSGI的全部功能是在请求中添加细节,直到您到达处理阶段,此时是制定回复的时候了。

    2. MIME email parsing

    3. 之后,您将使用站点黑名单和内容过滤来检测垃圾邮件。

      • 一个站点黑名单可以是一个大的、奇特的RDBMS。或者它可以是一组简单的pickle Python域名和IP地址。我建议使用内存中的简单pickle set对象。很快。您可以让RESTful服务在收到强制刷新的GET请求时从源文件重新加载此集合。

      • 文本过滤很难。我先从 SpamBayes

        3
  •  1
  •   Norman Ramsey    16 年前

    Lua OSBF-Lua ,一个已连续几年赢得垃圾邮件过滤竞赛的现有垃圾邮件过滤器。Fidelis Assis和我已经投入了大量工作,试图将该模型推广到电子邮件之外,我们很高兴与您合作,将其与您的应用程序集成,这正是Lua的设计目的。

    我们需要和你们合作,对没有邮件头的东西进行分类,但我已经朝这个方向努力了。欲了解更多信息,请写信nr@cs.tufts.edu. (是的,我 人们给我发垃圾邮件。这是研究用的!)

        4
  •  1
  •   Collin Allen    16 年前

    Zend Framework有一个很好的Akismet PHP类,您可以独立于框架的其余部分使用,这将使集成变得非常简单。文档也相当全面。