1
29
这是一个很一般的问题,但也是一个很好的话题!肯定是投了赞成票:) 不过,我对目前提供的答案并不满意,所以我决定就此写一个相当长的答案。
就像问如何烤蛋糕,你会得到以下答案:
当然也有很多回报。 当然,Google是最重要的参与者,但是,根据用例的不同,搜索引擎可能包含非常不同的因素或权重不同。 例如,一个搜索引擎发现新的独立音乐艺术家可能会把一个马吕斯 一个主流的搜索引擎可能会做完全相反的事情,为你提供“相关的结果”。 谷歌已经发布了200多个因素。 所以网站管理员知道如何优化他们的网站。 但从抽象的角度来说 SEO
在这两种情况下,重要的是我不是在谈论整个网站或域名,我是在谈论一个唯一的网址的单一网页。 同样重要的是,pagerank并不能代表所有的因素,只有那些被谷歌归类为受欢迎的因素。好吧,我指的是其他与受欢迎程度无关的因素。 对于Google,官方声明是他们希望向用户提供相关结果。 这意味着所有的算法都将根据用户的需求进行优化。 因此,在经过长时间的介绍(很高兴你仍然和我在一起……)之后,我将给你一份我认为非常重要的因素清单(目前): 第一类(答案与问题的匹配程度如何?
意思:问句出现在标题文本或标题段落中。 这些关键字的位置也是如此。这一页越早越好。 也经常重复(如果不是太多,以关键字填充的名义)。
类别2(页面有多重要/受欢迎?) 你会注意到并不是所有的因素都指向这个确切的目标。 其中一些被收录(特别是被谷歌收录)只是为了给页面一个提振,
独特内容的存在,无法找到或只有很少的在其余的网络给了一个推动。 这主要是通过网站上通常很少使用(重要词汇)的无序组合来衡量的。但也有更复杂的方法。
如果一个页面链接到另一个页面,那么如果该页面本身具有较高的pagerank,那么该链接的价值会更大。 基本上是来自不同根域的链接,但其他因素也起了作用。 甚至是地理上连接站点的web服务器(根据它们的ip地址)的分离程度等因素。
例如,如果大的,可信的,已建立的网站与编辑内容链接到你,你得到一个信任排名。 这就是为什么 The New York Times 比一些奇怪的新网站更值钱,即使它的PageRank更高! 如果你的域名是可信的,你的整个网站都会提升你的内容。 不同的因素在这里起作用。当然,从受信任的stie到你的域的链接,但如果你和重要网站在同一个数据中心,它甚至会做得很好。
如果网站可以解析为一个主题链接到你和查询也可以解析为这个主题,这是很好的。
如果你缓慢和稳定的赚取链接,这将有利于你的内容是“永恒的”。
来自
你的搜索结果点击率是多少?
投票、评级等,Gmail中的推荐信等。
**你的网站总体上有多重要/多好** 你所有的网页都会根据你网站的质量进行排名 因素包括:
最后,但并非最不重要的是,我想说的是,语义技术可以丰富许多这些因素,并可以引入新的因素。
新引入的语义标识符。例如 OWL 标签在未来可能会产生巨大的影响。 例如,一个关于电影《泰坦尼克号》的博客可以在这个页面上贴上一个标志,表明它的内容与维基百科上关于同一部电影的文章相同。 这种联系目前正在大力发展和建立中,没有人知道它将如何使用。 可能重复的内容会被过滤掉,而只显示同一内容中最重要的内容?或者反过来?你得到了很多与你的查询匹配的页面。即使他们不包含你的关键字? Google甚至根据你的搜索查询主题应用不同的相关因素! |
2
21
很棘手,但我要试试:
距最佳文本片段255段
将用于搜索引擎的关键字(堆栈溢出样式)
元数据关键字、说明、所有图像、更改日志(用于审核和管理)
|
3
11
什么是相关性?如何计算?有几种算法,我敢打赌谷歌有自己的,但我知道的是 Pearson Correlation 和 Euclidean Distance 我建议一本关于这个主题的好书(不一定是搜索引擎)是 Programming Collective Intelligence 托比·塞加拉(奥雷利)。本书中的一些示例展示了如何通过api或屏幕抓取从第三方网站获取数据,并找到类似的条目,这非常好。 无论如何,回到谷歌。其他的相关技术当然是全文搜索,你可能会想要一本关于MySQL或Sphinx的好书。@Chaoley建议是TSEP,这也很有趣。 但实际上,我认识一家名为Yandex的俄罗斯搜索引擎的人,他们所做的一切都是在保密协议下进行的,所以我想你可以接近,但你不可能做到完美,除非你在谷歌工作;) 干杯。 |
4
3
实际上回答你的问题(不仅仅是关于搜索引擎): 我相信,像Instapaper那样做是最好的选择。 instapaper背后的逻辑(我没有创建它,所以我当然不知道它的内部工作原理,但很容易预测它的工作原理):
所有这些想法,如果实现得当,将是非常防弹的,因为它们不依赖语义标记,使你的代码复杂,你确保即使非常草率的编码网站将被正确检测。 当然,这也会带来糟糕表现的负面影响,但我想不应该那么糟糕。 提示:对于人们经常链接到的大型网站,您可以手动设置包含正文文本(我在第1点描述的)的HTML元素。这将确保正确性并加快速度。 希望这有帮助。 |
5
2
从标签汤中提取相关内容有很多非常复杂的算法。如果你想建立一些有用的自我,你可以看看源代码 readability 可读性的基本逻辑是查找所有块级标记并计算其中的文本长度,而不计算子标记。然后,每个父节点被授予其每个子节点权重的片段(一半)。这用于资助具有最大纯文本量的最大块级标记。从这里开始,内容进一步清理。 它无论如何都不是防弹的,但在大多数情况下都很有效。 |
6
1
大多数搜索引擎在文档的头部查找标题和元描述,然后在正文中查找标题和文本内容。图像alt标记和链接标题也被考虑在内。上一次我读到雅虎使用的是meta关键字标签,但大多数没有。 https://sourceforge.net/projects/tsep/ 看看他们是怎么做到的。 |
7
1
|
8
1
|
9
1
我现在也面临同样的问题,经过一些尝试,我发现了一些可以创建网页片段的东西(必须进行微调):
除此之外,您还可以搜索“og:”元标记、标题和描述、h1和许多其他次要技术。 |
10
0
谷歌的“网络爬虫、机器人、蜘蛛和智能代理”可能会分别尝试,以获得单独的结果。 我想你要找的是屏幕抓取 Stack has a ton of Q&A 打开。 |
11
0
谷歌还使用了一个名为PageRank的系统,其中 它检查有多少链接到一个网站。假设你正在寻找一个C++教程,你可以搜索谷歌。你会发现一个是最好的结果,这是一个很棒的教程。谷歌之所以知道这一点,是因为它搜索了自己的网络缓存,发现每个人都在链接到本教程,同时大声疾呼本教程有多好。谷歌欺骗说这是一个很好的教程,并把它作为最高的结果。 它实际上做到了这一点,因为它缓存所有内容,给每个页面一个页面排名,如前所述,基于链接到它。
|
12
0
为了回答你的一个问题,我现在正在读下面这本书,我推荐它: Google's PageRank and Beyond ,作者:艾米·兰维尔和卡尔·迈耶。 温和的数学。在图论的背景下使用一些线性代数,特征分析,马尔可夫模型,等等。我喜欢那些讨论线性方程迭代求解方法的部分。我不知道Google采用了这些迭代方法。 这本书很短,只有200页。包含偏离文本主流的“旁白”,以及历史视角。也指其他最近的排名系统。 |
13
0
这里有一些很好的答案,但听起来好像他们没有回答你的问题。也许这个会。 你要找的是信息检索
假设你有两份文件:
还有这个
不管怎样,你如何计算这两份文件中最“相关”的?以下是方法:
你可以计算单词的频率,得到“关键字”。 然后,为每个单词创建一列,并计算该单词在所有文档中的重要性。这称为TF-IDF度量。 现在你有了这个:
然后,使用余弦相似度来计算文档之间的相似度。与文档C最相似的文档是最相关的。 现在,您似乎希望找到最相似的段落,所以只需将每个段落称为文档,或者考虑在文档上使用滑动窗口。 你可以在这里看到我的视频。它使用图形化Java工具,但解释了以下概念: http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-part-4.html 这是一本像样的红外图书: |
Alok Mishra · 如何自动点击“内容”按钮 6 年前 |
Ike · Python Selenium错误-当webdriver 7 年前 |
ilyas · 使用网站查询获取数据[已关闭] 7 年前 |
tanee · 通过rvest获取web抓取中的电子邮件地址 7 年前 |