代码之家  ›  专栏  ›  技术社区  ›  rook

网站覆盖率的最佳开源蜘蛛

  •  3
  • rook  · 技术社区  · 15 年前

    我对爬行许多网站感兴趣。最重要的考虑是蜘蛛能够到达尽可能多的地点。大多数spider都缺少的一个关键特性是执行javascript的能力。这是对支持Ajax的站点进行爬网所必需的。我真的很喜欢开源,我需要为我的项目修改代码。

    目前,我认为索尔,这是一个很好的解决方案,除了卢西恩。 http://lucene.apache.org/solr/features.html

    有人用过Solr或Lucine吗?我对solr最大的问题是不能执行javascript,但是它有一个丰富的特性集和可伸缩性,这两个都使solr具有吸引力。

    5 回复  |  直到 12 年前
        1
  •  4
  •   Vinko Vrsalovic    15 年前

    Solr不是一个爬虫,而是一个搜索引擎(搜索索引以返回结果)。

    也就是说,我真的很喜欢 heritrix 因为它的灵活性。大多数爬虫不会执行javascript(但有些爬虫,如heritrix,会尝试从中提取链接),因为即使在今天,这也没有什么意义。问题是,heritrix允许您插入自己的类,以便对已爬网的数据执行您希望的任何操作。

        2
  •  2
  •   Ondra Žižka David Lilljegren    15 年前
        3
  •  2
  •   fifigyuri    15 年前

    Solr是一个建立在Lucene之上的搜索引擎。它与爬行无关。看一看 Apache Nutch . 破解javascript可能是一个问题,因为它们通常是集成的,以引导爬行器到达死胡同。

        4
  •  1
  •   troelskn    15 年前

    watir 可能对你有用。

        5
  •  0
  •   Jafin    12 年前

    使用基于javascript模板创建DOM的页面,您真的需要在spider中执行完整的javascript。看一看 https://github.com/mikeal/spider 对于节点JS。