代码之家 › 专栏 › 技术社区 › ÊÉÄ±u

亚马逊在统计上不可能出现的短语是如何工作的?

platform-agnostic nlp algorithm

ÊÉÄ±u · 技术社区 · 15 年前

像统计上不可能出现的短语是如何工作的?

根据亚马逊的说法:

亚马逊网站在统计上不太可能短语或“sips”是最常见的文本中的独特短语书在里面搜索!_程序。为了识别SIP,我们的计算机扫描搜索中所有书籍的文本里面!程序。如果他们找到一个短语在一本特定的书在里面搜索!书,那句话是啜饮那本书。

啜饮不一定是不可能的。在一本特定的书中,但它们是与所有书相比,不太可能在里面搜索!例如,大多数SIP 因为税收书是与税收有关的。但因为我们按顺序显示吸管他们的不可能得分, 第一个SIPS将讨论税收问题这本书提到的次数比其他税务帐簿。对于小说作品, sips往往是一个独特的词经常暗示的组合重要的绘图元素。

例如,对于Joel的第一本书,sips是:泄漏的抽象、反锯齿的文本、自己的狗食、bug计数、每日构建、bug数据库、软件调度

其中一个有趣的复杂之处是,这些短语要么是2个单词,要么是3个单词。这使得事情变得更加有趣,因为这些短语可以相互重叠或包含。

6 回复 | 直到 12 年前

danben 15 年前

这很像Lucene为给定的搜索查询对文档进行排序的方式。他们使用一个称为tf-idf的度量,其中tf是术语频率,idf是文档的逆频率。前者对一个文档的排名越高,查询词在该文档中出现的越多;后者对一个文档的排名越高,如果该文档中的查询词很少出现在所有文档中。他们计算它的具体方法是日志(文档数/带有术语的文档数)-即术语出现频率的倒数。

所以在你的例子中,这些短语是相对于乔尔的书的sips,因为它们是罕见的短语(出现在一些书中),并且在他的书中出现了多次。

编辑 :对于2克和3克的问题,重叠并不重要。想想“我的两只狗是棕色的”。在这里,2克的清单是[“我的两只”、“两只狗”、“狗是”、“都是棕色的”],3克的清单是[“我的两只狗”、“两只狗是”、“狗是棕色的”]。正如我在我的评论中提到的,有重叠的话,对于一个n个单词流,你可以得到n-12-grams和n-23-grams。因为2克只能等于2克,3克也一样,所以您可以分别处理这些情况。当处理2克时,每个“字”都是2克,等等。

Vinko Vrsalovic 15 年前

他们可能在 tf-idf 重量,检测在特定的书中出现多次,但在整个语料库中减去特定的书很少出现的短语。对每本书重复以上步骤。

因此,“不可能”是相对于整个语料库的,可以理解为“独特性”,或者“与图书馆的其他部分相比,书的独特之处在于什么”。

当然,我只是猜测。

Ken Bloom 15 年前

凌管有 tutorial 关于如何做到这一点,它们链接到引用。他们不讨论它背后的数学问题,但是他们的源代码是开放的,所以您可以查看他们的源代码。

我不能说我知道亚马逊在做什么,因为他们可能对它保密(或者至少他们不想告诉任何人)。

BCS 12 年前

作为起点,我想看看 Markov Chains .

一种选择:

从完整索引构建文本语料库。
仅从一本书构建文本语料库。
对于每个m到n个单词短语,找出每个语料库生成它的概率。
选择概率比率最高的n个短语。

一个有趣的扩展是运行马尔可夫链生成器,其中权重表是全局语料库和局部语料库之间差异的放大。这将产生一个“漫画”(字面上)作者的风格特点。

arrac 12 年前

很抱歉恢复了一个旧的线程,但我在这里找到了同样的问题,并发现有一些新的工作,可能会增加伟大的线程。

我觉得sips对于一个文档来说比具有高tf-idf分数的单词更独特。例如,在关于 哈利·波特 术语 赫敏·格兰杰 和 霍格沃茨 通常是更好的小口魔术和伦敦不是。TF-IDF不擅长区分这一点。

我发现了一个有趣的sips定义 here . 在这项工作中,短语被建模为n-gram,并计算出它们在文档中出现的概率,以确定它们的唯一性。

Steven 15 年前

我相当肯定这本书是由SIPS组合而成的,它们把这本书看作是独一无二的。在你的例子中,几乎不可能有另一本书在同一本书中有“泄漏的抽象”和“自己的狗食”。

然而,我在这里做了一个假设,因为我不确定。