1
6
我发现了问题。这是一个疯子。我已经给Nutch开发者列表发了邮件,但我的解决方法是:
现在我在Apache日志中看到了304,我应该在那里看到它们。 |
2
0
我认为您错误地使用了选项名-db.fetch.interval.default。应该是这样。 db.default.fetch.interval(默认获取间隔) 在每次注入的页面被提取之后,下一次应该被提取的天数。30默认情况下。 我刚刚阅读了最新版本的更改日志,发现了以下内容
如果您没有安装最新版本,我建议您这样做。 另外,您是否使用-adddays选项进行爬行? |
Tae · Python3中方法has\u key的替换 6 年前 |
Vega · 如何从DOM获取所有链接? 6 年前 |
bob9123 · 为什么状态和索引中的文档计数不同? 6 年前 |
Konstantin · crawler中未启动回调函数,scrapy 6 年前 |
SY9 · 刮:已爬网并刮取0个项目 6 年前 |