代码之家  ›  专栏  ›  技术社区  ›  OregonTrail

速度最好的网络爬虫?

  •  5
  • OregonTrail  · 技术社区  · 14 年前

    这个项目包括在一个域名中下拉所有网页的完整文档内容,这些内容可以从主页访问。用Scrapy写这个很容易,但是它运行太慢了。在2-3天内我只能写10万页。

    我已经意识到,我最初的想法,即Scrapy是不适合这种类型的爬行是暴露自己。

    Methabot

    我正在寻找一个爬虫是快速的,并采用许多并行请求。

    3 回复  |  直到 10 年前
        1
  •  5
  •   whalebot.helmsman    14 年前

    你用代理吗?这也会减慢爬行速度。 handwritten crawler 我人为设置了每秒1个请求的限制。但是这个速度对于一个线程来说已经足够了(1个请求*60秒*60分钟*24小时=86400个请求/天)。如果你感兴趣,可以给whalbot.helmsman{AT}gmail.com发邮件。

        2
  •  2
  •   Tim McNamara    14 年前

    Scrapy允许您确定并发请求的数量以及请求之间的延迟 its settings .

        3
  •  0
  •   Pablo Hoffman    14 年前

    你知道瓶颈在哪里吗?。正如whalbot.helmman指出的,限制可能不在Scrapy本身,而是在您正在爬行的服务器上。

    您应该首先找出瓶颈是网络还是CPU。