1
5
如果每个内容都在一个唯一的位置,只需将这些位置(可能是URL)输入一个哈希字段,并在“爬行”内容之前检查它。无论如何,URL应该是Lucene中存储数据的一部分,因此在添加到索引之前,通过搜索很容易实现这一点。 |
2
2
我的方法是存储所看到的每个页面内容的哈希/指纹。这样,当您重新蚀刻一个页面时,您将验证指纹,如果匹配,则不会发生任何更改,也不需要解析,因为您已经处理了页面及其所有链接。 |
3
1
站点是否为每个正在获取的资源发布有效的电子标签?如果是这样,您可以发出已知资源的条件获取,并且在服务器发送资源(即它已更改)的情况下,您可以寻找新的链接进行爬行、更新内容等。 当然,只有当你的网站发布电子标签并响应条件获取时,这才有效。 |
4
1
|
5
1
查看“上次修改”的HTTP头。在c中,如果httpwebResponse不等于datetime,则返回它。现在,内容已更改。因此,您可以使用本地内容(假设您正在存储它)来为爬行器提供数据。 所以,当你爬行时,存储网页内容和“上次修改”的标题。 此外,您也可以存储每个唯一的绝对URI,这在绝对URI的查找时间超过获取页面所需的时间之前工作良好,或者可以使用Bloom筛选器: http://en.wikipedia.org/wiki/Bloom_filter . 除了弄清楚谷歌网站地图在哪里(或RSS提要),你不知道新内容在哪里添加。自动知道就像一个窃贼问你的新买的东西在哪里,而不是先问你。:) |
Tae · Python3中方法has\u key的替换 6 年前 |
Vega · 如何从DOM获取所有链接? 6 年前 |
bob9123 · 为什么状态和索引中的文档计数不同? 6 年前 |
Konstantin · crawler中未启动回调函数,scrapy 6 年前 |
SY9 · 刮:已爬网并刮取0个项目 6 年前 |