代码之家 › 专栏 › 技术社区 › sirrocco

太激进的机器人?

web-crawler web-services

sirrocco · 技术社区 · 15 年前

我正在做一个小机器人来爬行一些网站。现在,我正在测试它,我尝试了两种设置:

还是太快了吗?我是说,我们谈论的是接近1000.000.000个链接,我应该得到这样的信息:“我们只是不想被爬行?”还是太快了?

谢谢。

编辑

再次尝试-每5秒2个请求-30分钟和550个链接后,我被禁止。

我会每2秒提出一个请求,但我怀疑会发生同样的情况。如果我能找到他,我想我得和管理员联系。

3 回复 | 直到 15 年前

z - 15 年前

通常,如果一个页面需要x秒的时间来下载,那么在重新下载之前至少等待10x-15x是很礼貌的。

还要确保你也在纪念robots.txt。

Chathuranga Chandrasekara 15 年前

对。它太快了。

通常爬虫每分钟保持1个请求的速率。

老实说,这是一个低爬行率。但几分钟后,您可以有一个URL队列(一个长列表:)。您可以在这个列表上旋转,直到下一个特定的URL出现。

如果您可以选择使用某种分布式体系结构(具有不同网络连接的多个节点,甚至是虚拟机或虚拟机),您可能会想到更高的速度。网格中的不同主机可以更有效地抓取内容。

Pat 15 年前

最好考虑的因素之一是网站所有者。正如其他人所提到的,robots.txt文件是网站执行此操作的标准。

总之,robots.txt中有三种方法用于限制请求速度。

爬行延迟:,一个整数,表示请求之间等待的秒数。

请求速率:/,分子表示多少页,分母表示每秒多少页。即:1/3=每3秒1页。

访问时间:,两个由连字符分隔的4位数字,表示您应该对其站点进行爬网的时间(基于hh:mm GMT)。

考虑到这些建议/请求,您可能会发现有些站点的robots.txt中没有这些内容,您可以在其中控制这些内容。我建议保持一个合理的速率,至少每秒1页,同时也限制你每天消耗多少页。

推荐文章

Community wiki · 基于两个参数在文本框中使用上下文键自动完成?

2 年前

TSSK · 组织。阿帕奇。cxf。运输http。HTTPException:HTTP响应“415:不支持的媒体类型”

3 年前

user18296410 · 使用python zeep向wsdl URL发出Soap请求

3 年前

wolÏi · 使用PL/SQL使用web服务:UTL_DBWS还是APEX_web_服务?

7 年前

user755806 · 从Rest服务返回JSON响应?

7 年前

Vesnog · 在SOAP请求中使用自定义字段实现WSSE安全头时发生C#运行时错误

7 年前

tabn3adit · 如何修复此错误android:找不到类的com。猫头鹰似的。詹森。Genson'

7 年前

Kris Swat · 如何在web service出站网关中记录请求回调后的消息

7 年前

user9801071 · 如何使用Autodesk Forge API通过web应用程序为三维模型着色?

7 年前

edwnmnashe · 获取soap属性值google appscript

7 年前