1
6
使你的爬虫程序有一个代理列表,并且在每个http请求中让它以循环方式使用列表中的下一个代理。但是,这将阻止您使用http/1.1持久连接。修改代理列表最终将导致使用新代理或不使用代理。 或者并行打开多个连接,每个代理一个,并将爬网请求分发到每个打开的连接。动态性可以通过让connetor向请求分派器注册自己来实现。 |
2
14
我使用haproxy+delegate+multiple-tor实例设置了旋转代理。使用ToR,您无法很好地控制带宽和延迟,但它对Web抓取很有用。我刚刚发表了一篇关于这个问题的文章: Running Your Own Anonymous Rotating Proxies |
3
1
编辑:甚至还有用于gimmeproxy的python包装器: https://github.com/ericfourrier/gimmeproxy-api 如果你不介意node,你可以使用 proxy-lists 收集公众代理人 check-proxy 去检查他们。就是这样 https://gimmeproxy.com 工作,更多信息 here |
Alok Mishra · 如何自动点击“内容”按钮 6 年前 |
Ike · Python Selenium错误-当webdriver 7 年前 |
ilyas · 使用网站查询获取数据[已关闭] 7 年前 |
tanee · 通过rvest获取web抓取中的电子邮件地址 7 年前 |