代码之家 › 专栏 › 技术社区 › skyflyer

关于搜索引擎:他们如何对网站进行截图?

snapshot

0

skyflyer · 技术社区 · 15 年前

这可能是一个愚蠢的问题,但我真的不知道,我很好奇!所以请容忍我。

我所知道的是搜索引擎只是在一个网站上阅读HTML和单词。他们通常忽略CSS或它的一部分。他们可能无法阅读图像。是吗?

如果他们真的不能或忽略阅读这些内容,那么我的问题是他们如何制作屏幕截图,这是一个页面,以CSS的方式呈现,并且有图像。

如果他们不阅读CSS、图片,他们也不喜欢人类在他或她的屏幕上打开它。他们是如何截图的?
谢谢!

4 回复 | 直到 15 年前

1

Zarel 15 年前

你指的是谷歌的新屏幕截图功能,还是他们的旧缓存功能?你的问题是关于截图,根本没有提到缓存,但是你对你的问题的评论似乎意味着你指的是缓存,而不是截图。

对于截图:

你在那个搜索引擎里是对的通常只在网站上阅读HTML和文本,因为这是他们所需要的。但这并不意味着他们不能 .

当他们想要对一个网站进行截屏时,他们只需要做一个普通浏览器在用户访问该网站时所做的事情。下载网站、CSS、图片和其他所有内容,并使用Web浏览器(如WebKit)的呈现引擎进行呈现。

对于缓存:

搜索引擎通常只存储HTML而不分析它。它将保存的HTML发送到您的浏览器,并且您的浏览器从原始网站中提取页面中的所有其他内容(图像等)。搜索引擎没有读取任何内容,它只是逐字保存页面(好吧,有一些小的更改,即URL重写),并将其提供给您的浏览器。

2

1

Trav L 15 年前

有一些应用程序可以像在选定的浏览器中一样截屏页面。

Browershot 是在线服务的一个例子。

以下是网页缩略图生成器的一些链接和项目:

Build your own website thumbnail generator with Django (蟒蛇)
Zubrag Website Thumb Generator (PHP)

3

0

John 15 年前

也许我不理解你的问题,但是…

您似乎使用“读取图像”的意思是将数据从图像加载到搜索引擎。这是搜索引擎做的(包括CSS)。当人们说搜索引擎忽略图像时,他们的意思是说它不把它们视为有意义的可搜索数据。换言之,如果我制作的图像上有“你好”一词,你和我“读”它的意义上,我们看到和理解的图像包含一个词。搜索引擎通常不会尝试这样做,但是,如果搜索引擎希望能够在以后将图像呈现给用户,它会将图像“读取”到其存储中。

4

0

RageZ 15 年前

搜索引擎不使用CSS和图像内容进行索引,但可以将它们存储在服务器上,以生成网站的缓存版本。

在谷歌的情况下,我认为他们只存储文本文件,所以HTML,CSS,也许是javascript,但没有图像。