1
2
“状态”索引包含有关爬虫获取或发现的所有URL的信息。这大致相当于Nutch中的crawldb。“索引”索引包含已获取、分析以及索引的页面。 现在,如果您查看状态索引中的“status”字段,您会发现有不同的值指示是否已发现、获取URL等。。。看见 WIKI about status stream 。 标记为已发现的那些尚未提取,因此不能在“索引”索引中。如果按status:FETCHED筛选状态索引的内容,则应该会看到一个与目标索引相当的数字。 SC中的Elasticsearch模块包含kibana模板,允许您查看每个状态的URL细分。如果您还没有这样做,我建议您查看 video tutorials on Youtube 。
它最终会到达那里,你只需要给爬虫一些时间来完成它的工作(并且礼貌地这样做)。请记住,爬虫发现URL的速度比获取URL的速度快。在询问速度之前,请阅读 FAQ 。 |
2
0
重定向和获取错误是造成差异的另一个可能原因。它们存在于状态索引中,但不存在于内容索引中。 |
Hotshot399 · 如何在弹性搜索中对聚合结果进行过滤? 2 年前 |
Nandakumar M · 弹性搜索更新和刷新API 2 年前 |
Mariannah47 · 日期直方图弹性搜索中的反向嵌套聚合 2 年前 |