代码之家  ›  专栏  ›  技术社区  ›  Kevin Peterson

现成的垃圾邮件过滤?

  •  0
  • Kevin Peterson  · 技术社区  · 15 年前

    我在一个社交媒体监控系统工作。我们不是自己爬网,而是从像spinn3r这样的聚合器中获取信息。在大多数情况下,那些只不过是色情网站链接页面的“博客”都会被过滤掉,但我们希望有一些内部的东西,我们可以在比等待上游提供商做出改变更快的时间框架内进行培训。

    我看了SpamAssassin,如果我们处理电子邮件的话,它将是我们的理想选择。有没有一个库可以只提取一个文本体,并根据工作频率、链接数、隐藏的背景文本等因素给它一个质量分数?

    理想情况下,我在Java中寻找一些东西,但是如果没有什么,我就可以使用客户机服务器或者嵌入一个或多个库。

    我想我最终会自己建造它,但它总是值得一试的。

    1 回复  |  直到 15 年前
        1
  •  0
  •   russau    15 年前

    wordpress有一些垃圾插件来捕捉垃圾评论。谷歌搜索会产生: WP-SpamFree Anti-Spam Spam Karma 2.3

    wordpress插件似乎是用php实现的。也许有什么有用的。