代码之家  ›  专栏  ›  技术社区  ›  ʞɔıu

亚马逊在统计上不可能出现的短语是如何工作的?

  •  26
  • ʞɔıu  · 技术社区  · 15 年前

    像统计上不可能出现的短语是如何工作的?

    根据亚马逊的说法:

    亚马逊网站在统计上不太可能 短语或“sips”是最常见的 文本中的独特短语 书在里面搜索!_程序。 为了识别SIP,我们的计算机扫描 搜索中所有书籍的文本 里面!程序。如果他们找到一个短语 在 一本特定的书 在里面搜索!书,那句话是 啜饮那本书。

    啜饮不一定是不可能的。 在一本特定的书中,但它们是 与所有书相比,不太可能 在里面搜索!例如,大多数SIP 因为税收书是与税收有关的。 但因为我们按顺序显示吸管 他们的不可能得分, 第一个SIPS将讨论税收问题 这本书提到的次数比 其他税务帐簿。对于小说作品, sips往往是一个独特的词 经常暗示的组合 重要的绘图元素。

    例如,对于Joel的第一本书,sips是:泄漏的抽象、反锯齿的文本、自己的狗食、bug计数、每日构建、bug数据库、软件调度

    其中一个有趣的复杂之处是,这些短语要么是2个单词,要么是3个单词。这使得事情变得更加有趣,因为这些短语可以相互重叠或包含。

    6 回复  |  直到 12 年前
        1
  •  16
  •   danben    15 年前

    这很像Lucene为给定的搜索查询对文档进行排序的方式。他们使用一个称为tf-idf的度量,其中tf是术语频率,idf是文档的逆频率。前者对一个文档的排名越高,查询词在该文档中出现的越多;后者对一个文档的排名越高,如果该文档中的查询词很少出现在所有文档中。他们计算它的具体方法是日志(文档数/带有术语的文档数)-即术语出现频率的倒数。

    所以在你的例子中,这些短语是相对于乔尔的书的sips,因为它们是罕见的短语(出现在一些书中),并且在他的书中出现了多次。

    编辑 :对于2克和3克的问题,重叠并不重要。想想“我的两只狗是棕色的”。在这里,2克的清单是[“我的两只”、“两只狗”、“狗是”、“都是棕色的”],3克的清单是[“我的两只狗”、“两只狗是”、“狗是棕色的”]。正如我在我的评论中提到的,有重叠的话,对于一个n个单词流,你可以得到n-12-grams和n-23-grams。因为2克只能等于2克,3克也一样,所以您可以分别处理这些情况。当处理2克时,每个“字”都是2克,等等。

        2
  •  10
  •   Vinko Vrsalovic    15 年前

    他们可能在 tf-idf 重量,检测在特定的书中出现多次,但在整个语料库中减去特定的书很少出现的短语。对每本书重复以上步骤。

    因此,“不可能”是相对于整个语料库的,可以理解为“独特性”,或者“与图书馆的其他部分相比,书的独特之处在于什么”。

    当然,我只是猜测。

        3
  •  5
  •   Ken Bloom    15 年前

    凌管有 tutorial 关于如何做到这一点,它们链接到引用。他们不讨论它背后的数学问题,但是他们的源代码是开放的,所以您可以查看他们的源代码。

    我不能说我知道亚马逊在做什么,因为他们可能对它保密(或者至少他们不想告诉任何人)。

        4
  •  5
  •   BCS    12 年前

    作为起点,我想看看 Markov Chains .

    一种选择:

    1. 从完整索引构建文本语料库。
    2. 仅从一本书构建文本语料库。
    3. 对于每个m到n个单词短语,找出每个语料库生成它的概率。
    4. 选择概率比率最高的n个短语。

    一个有趣的扩展是运行马尔可夫链生成器,其中权重表是全局语料库和局部语料库之间差异的放大。这将产生一个“漫画”(字面上)作者的风格特点。

        5
  •  3
  •   arrac    12 年前

    很抱歉恢复了一个旧的线程,但我在这里找到了同样的问题,并发现有一些新的工作,可能会增加伟大的线程。

    我觉得sips对于一个文档来说比具有高tf-idf分数的单词更独特。例如,在关于 哈利·波特 术语 赫敏·格兰杰 霍格沃茨 通常是更好的小口 魔术 伦敦 不是。TF-IDF不擅长区分这一点。

    我发现了一个有趣的sips定义 here . 在这项工作中,短语被建模为n-gram,并计算出它们在文档中出现的概率,以确定它们的唯一性。

        6
  •  1
  •   Steven    15 年前

    我相当肯定这本书是由SIPS组合而成的,它们把这本书看作是独一无二的。在你的例子中,几乎不可能有另一本书在同一本书中有“泄漏的抽象”和“自己的狗食”。

    然而,我在这里做了一个假设,因为我不确定。