代码之家 › 专栏 › 技术社区 › Agnel Kurian

搜索引擎从哪里开始爬行?

search-engine

Agnel Kurian · 技术社区 · 16 年前

搜索引擎机器人程序使用什么作为起点?是DNS查找还是从一些已知站点的固定列表开始?有什么猜测或建议吗?

3 回复 | 直到 7 年前

Vineet Jain 7 年前

你的问题可以用两种方式来解释:

你是在问搜索引擎从何处开始搜索,还是从何处开始搜索某个特定的网站?

我不知道大玩家是如何运作的,但是如果你要建立自己的搜索引擎,你可能会在它上面植入流行的门户网站。 DMOZ.org 似乎是一个流行的起点。因为大玩家的数据比我们多得多,他们可能从不同的地方开始爬虫。

如果你问SE从哪里开始对你的特定站点进行爬行,那么这可能与你的哪个页面最受欢迎有很大关系。我想,如果你有一个超级流行的网页,很多其他网站链接,那么这将是SES开始进入的网页,因为有更多的进入点从其他网站。

请注意,我不是在SEO或任何东西;我只是研究了一段时间的bot和SE流量为一个项目,我正在努力。

ConroyP 16 年前

您可以使用他们的 site submission forms -这会让你进入他们的系统。当你真的在那之后被抓取是不可能的-从经验来看,它通常是大约一个星期左右的初步抓取(主页,几个其他的网页,从那里1链接深)。您可以使用清晰的语义链接结构并提交一个 sitemap -这些功能允许您列出所有页面,并对它们进行相对权重,这有助于搜索引擎了解相对于其他页面查看网站每个部分的重要性。

如果您的网站是从其他已爬网网站链接的,那么您的网站也将被爬网,从链接的页面开始,最终扩展到网站的其余部分。这可能需要很长的时间,并且取决于链接站点的爬行频率,所以URL提交是让谷歌知道你的最快方式!

我推荐的一个工具是 Google Webmaster Tool . 它允许您查看被爬行的频率,googlebot偶然发现的任何错误(断开的链接等),以及其中的许多其他有用工具。

mweerden 16 年前

原则上,他们从零开始。只有当有人明确告诉他们加入他们的网站,他们才能开始爬行这个网站,并使用该网站上的链接来搜索更多。

然而,在实践中,搜索引擎的创建者将把他们能想到的一些任意的网站。例如,他们自己的博客或书签中的网站。

理论上,你也可以随便挑选一些地址,看看那里是否有网站。不过,我怀疑是否有人这样做;上面的方法工作得很好,不需要额外的编码来引导搜索引擎。