![]() |
1
8
你的问题可以用两种方式来解释: 你是在问搜索引擎从何处开始搜索,还是从何处开始搜索某个特定的网站? 我不知道大玩家是如何运作的,但是如果你要建立自己的搜索引擎,你可能会在它上面植入流行的门户网站。 DMOZ.org 似乎是一个流行的起点。因为大玩家的数据比我们多得多,他们可能从不同的地方开始爬虫。 如果你问SE从哪里开始对你的特定站点进行爬行,那么这可能与你的哪个页面最受欢迎有很大关系。我想,如果你有一个超级流行的网页,很多其他网站链接,那么这将是SES开始进入的网页,因为有更多的进入点从其他网站。 请注意,我不是在SEO或任何东西;我只是研究了一段时间的bot和SE流量为一个项目,我正在努力。 |
![]() |
2
4
您可以使用他们的 site submission forms -这会让你进入他们的系统。当你真的在那之后被抓取是不可能的-从经验来看,它通常是大约一个星期左右的初步抓取(主页,几个其他的网页,从那里1链接深)。您可以使用清晰的语义链接结构并提交一个 sitemap -这些功能允许您列出所有页面,并对它们进行相对权重,这有助于搜索引擎了解相对于其他页面查看网站每个部分的重要性。 如果您的网站是从其他已爬网网站链接的,那么您的网站也将被爬网,从链接的页面开始,最终扩展到网站的其余部分。这可能需要很长的时间,并且取决于链接站点的爬行频率,所以URL提交是让谷歌知道你的最快方式! 我推荐的一个工具是 Google Webmaster Tool . 它允许您查看被爬行的频率,googlebot偶然发现的任何错误(断开的链接等),以及其中的许多其他有用工具。 |
![]() |
3
2
原则上,他们从零开始。只有当有人明确告诉他们加入他们的网站,他们才能开始爬行这个网站,并使用该网站上的链接来搜索更多。 然而,在实践中,搜索引擎的创建者将把他们能想到的一些任意的网站。例如,他们自己的博客或书签中的网站。 理论上,你也可以随便挑选一些地址,看看那里是否有网站。不过,我怀疑是否有人这样做;上面的方法工作得很好,不需要额外的编码来引导搜索引擎。 |
![]() |
vishnu · Elasticsearch相关性-具有相似名称的文档 7 年前 |
![]() |
P.K. · 如何在现有mvc页面上实现搜索引擎 8 年前 |
|
user3824280 · 搜索引擎无法使用我的分页器[已关闭] 8 年前 |
![]() |
xanderflood · 如何在Python中下载谷歌图像搜索结果 8 年前 |
![]() |
cookiesncream · 全文搜索引擎,多列,布尔模式 10 年前 |
![]() |
Saqib Ali · 为每个最终用户分离solr索引 11 年前 |