1
2
没有内置机制承诺“将作业划分为多个线程和进程”。如果必须这样做,则必须将URL数组拆分为较小的数组,并将拆分的数组同时排队到单独的爬行器实例上。
但是,完全没有必要这样做,因为您使用的是node js和node crawler,所以可以使用
|
2
1
至少现在还没有这种机制内置到JavaScript中。 您可以使用提供更多功能的第三方承诺库,例如 Bluebird ,您可以在其中使用它们的并发功能:
另一种选择是使用专用的节流库(我强烈建议 bottleneck ,这允许您表示任何一般类型的速率限制。这种情况下的语法将类似于您已有的语法:
你 可以 你自己解决这个问题,但带一个(或两个都带!)上面的库中的一个可以为您节省大量的代码。 |
Tae · Python3中方法has\u key的替换 6 年前 |
Vega · 如何从DOM获取所有链接? 6 年前 |
bob9123 · 为什么状态和索引中的文档计数不同? 6 年前 |
Konstantin · crawler中未启动回调函数,scrapy 6 年前 |
SY9 · 刮:已爬网并刮取0个项目 6 年前 |