![]() |
1
4
定义最佳线程数取决于硬件设置。因此,更多的机器将产生更高的吞吐量。下一个硬限制是网络带宽。如果你没有通过高速互联网连接,这将是你的方法的瓶颈。
此外
如果爬网是在非阻塞模式下启动的,则在爬网开始后添加种子是可能的,并且应该会起作用。然而,处理URL可能需要一段时间。 对于多机设置,您可以查看 Apache Nutch 然而,Nutch有点难学。 编辑: 在重现您的设置之后,我能够以动态方式回答您关于添加种子页面的问题。 以这种方式启动爬虫
将调用
要解决这个问题,您有两种可能的解决方案:
|
![]() |
mexicanRmy · Selenium Select不处理下拉元素 2 年前 |
![]() |
Fadi Ft Ftena · 基于类名的Web抓取 2 年前 |
![]() |
Amen Aziz · csv文件中的数据不提供任何信息 2 年前 |
![]() |
Jensen Holm · 在非常大的字符串中查找链接时遇到问题 2 年前 |