代码之家 › 专栏 › 技术社区 › rook

网站覆盖率的最佳开源蜘蛛

web-crawler javascript

rook · 技术社区 · 15 年前

我对爬行许多网站感兴趣。最重要的考虑是蜘蛛能够到达尽可能多的地点。大多数spider都缺少的一个关键特性是执行javascript的能力。这是对支持Ajax的站点进行爬网所必需的。我真的很喜欢开源,我需要为我的项目修改代码。

目前,我认为索尔,这是一个很好的解决方案,除了卢西恩。 http://lucene.apache.org/solr/features.html

有人用过Solr或Lucine吗?我对solr最大的问题是不能执行javascript,但是它有一个丰富的特性集和可伸缩性,这两个都使solr具有吸引力。

5 回复 | 直到 12 年前

Vinko Vrsalovic 15 年前

Solr不是一个爬虫,而是一个搜索引擎(搜索索引以返回结果)。

也就是说,我真的很喜欢 heritrix 因为它的灵活性。大多数爬虫不会执行javascript(但有些爬虫,如heritrix,会尝试从中提取链接),因为即使在今天,这也没有什么意义。问题是,heritrix允许您插入自己的类,以便对已爬网的数据执行您希望的任何操作。

Ondra Å½iÅ¾ka David Lilljegren 15 年前

fifigyuri 15 年前

Solr是一个建立在Lucene之上的搜索引擎。它与爬行无关。看一看 Apache Nutch . 破解javascript可能是一个问题,因为它们通常是集成的,以引导爬行器到达死胡同。

troelskn 15 年前

watir 可能对你有用。

Jafin 12 年前

使用基于javascript模板创建DOM的页面,您真的需要在spider中执行完整的javascript。看一看 https://github.com/mikeal/spider 对于节点JS。

推荐文章

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

6 年前

Tae · Python3中方法has\u key的替换

6 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

6 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

6 年前

Vega · 如何从DOM获取所有链接?

6 年前

Vivek Kumar Sinha · 产生刮痕。请求()无法正常工作以爬网下一页

6 年前

bob9123 · 为什么状态和索引中的文档计数不同?

6 年前

Konstantin · crawler中未启动回调函数,scrapy

6 年前

SY9 · 刮:已爬网并刮取0个项目

6 年前

Vani4ka · Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

6 年前