代码之家 › 专栏 › 技术社区 › OregonTrail

速度最好的网络爬虫?

nutch web-crawler scrapy

OregonTrail · 技术社区 · 14 年前

这个项目包括在一个域名中下拉所有网页的完整文档内容,这些内容可以从主页访问。用Scrapy写这个很容易,但是它运行太慢了。在2-3天内我只能写10万页。

我已经意识到,我最初的想法,即Scrapy是不适合这种类型的爬行是暴露自己。

我正在寻找一个爬虫是快速的,并采用许多并行请求。

3 回复 | 直到 10 年前

whalebot.helmsman 14 年前

你用代理吗?这也会减慢爬行速度。 handwritten crawler 我人为设置了每秒1个请求的限制。但是这个速度对于一个线程来说已经足够了(1个请求*60秒*60分钟*24小时=86400个请求/天)。如果你感兴趣,可以给whalbot.helmsman{AT}gmail.com发邮件。

Tim McNamara 14 年前

Scrapy允许您确定并发请求的数量以及请求之间的延迟 its settings .

Pablo Hoffman 14 年前

你知道瓶颈在哪里吗?。正如whalbot.helmman指出的,限制可能不在Scrapy本身,而是在您正在爬行的服务器上。

您应该首先找出瓶颈是网络还是CPU。

推荐文章

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

7 年前

Tae · Python3中方法has\u key的替换

7 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

7 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

7 年前

Vega · 如何从DOM获取所有链接?

7 年前

Vivek Kumar Sinha · 产生刮痕。请求()无法正常工作以爬网下一页

7 年前

bob9123 · 为什么状态和索引中的文档计数不同?

7 年前

Konstantin · crawler中未启动回调函数,scrapy

7 年前

SY9 · 刮:已爬网并刮取0个项目

7 年前

Vani4ka · Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

7 年前