代码之家  ›  专栏  ›  技术社区  ›  Lars Holdgaard

算法:确定主页类型?

  •  1
  • Lars Holdgaard  · 技术社区  · 14 年前

    我已经考虑了一段时间了,所以我想我应该征求一下建议:

    我有一个爬虫进入某个站点的根目录(可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我访问的是什么样的“主页”。。例如,不同的类型可以是:

    • 博客
    • 链接目录
    • 社交媒体网站
    • “单人场地”

    我已经脑力激荡了一段时间,最好的解决方案似乎是一些启发式的点系统。我的意思是不同的趋势给出了不同类型的一些点,然后程序会做出猜测。

    但这就是我陷入困境的地方。。你如何发现趋势?

    • 目录可能很容易:如果站点索引/传出链接非常高,目录应该得到几个点。

    但我真的找不到太多的趋势。

    所以:我的问题是: 有什么办法吗?

    非常感谢。。

    2 回复  |  直到 14 年前
        1
  •  0
  •   Skilldrick    14 年前

    neural network 才能认出他们。给出链接的数量/类型,也许还有HTML标记的类型。

        2
  •  3
  •   agorenst    14 年前

    我相信你在尝试文档分类,这是一个很好的研究课题。

    http://en.wikipedia.org/wiki/Document_classification

    你会看到很多不同的方法。但是,在确定你所称的“趋势”之前,提出任何一种(或神经网络等)建议都是过早的。我建议研究“web文档分类”等。这显然是文献分类的一个相当大的子集,如果你能接触到学术期刊,就会有很多令人费解的文章供你欣赏。

    http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

    最后,我认为这是一个可访问的(如果格式奇怪的话)网站,有一个一般的,也许过时的讨论: http://www.webology.ir/2008/v5n1/a52.html