1
16
这很像Lucene为给定的搜索查询对文档进行排序的方式。他们使用一个称为tf-idf的度量,其中tf是术语频率,idf是文档的逆频率。前者对一个文档的排名越高,查询词在该文档中出现的越多;后者对一个文档的排名越高,如果该文档中的查询词很少出现在所有文档中。他们计算它的具体方法是日志(文档数/带有术语的文档数)-即术语出现频率的倒数。 所以在你的例子中,这些短语是相对于乔尔的书的sips,因为它们是罕见的短语(出现在一些书中),并且在他的书中出现了多次。 编辑 :对于2克和3克的问题,重叠并不重要。想想“我的两只狗是棕色的”。在这里,2克的清单是[“我的两只”、“两只狗”、“狗是”、“都是棕色的”],3克的清单是[“我的两只狗”、“两只狗是”、“狗是棕色的”]。正如我在我的评论中提到的,有重叠的话,对于一个n个单词流,你可以得到n-12-grams和n-23-grams。因为2克只能等于2克,3克也一样,所以您可以分别处理这些情况。当处理2克时,每个“字”都是2克,等等。 |
2
10
他们可能在 tf-idf 重量,检测在特定的书中出现多次,但在整个语料库中减去特定的书很少出现的短语。对每本书重复以上步骤。 因此,“不可能”是相对于整个语料库的,可以理解为“独特性”,或者“与图书馆的其他部分相比,书的独特之处在于什么”。 当然,我只是猜测。 |
3
5
凌管有 tutorial 关于如何做到这一点,它们链接到引用。他们不讨论它背后的数学问题,但是他们的源代码是开放的,所以您可以查看他们的源代码。 我不能说我知道亚马逊在做什么,因为他们可能对它保密(或者至少他们不想告诉任何人)。 |
4
5
作为起点,我想看看 Markov Chains . 一种选择:
一个有趣的扩展是运行马尔可夫链生成器,其中权重表是全局语料库和局部语料库之间差异的放大。这将产生一个“漫画”(字面上)作者的风格特点。 |
5
3
很抱歉恢复了一个旧的线程,但我在这里找到了同样的问题,并发现有一些新的工作,可能会增加伟大的线程。 我觉得sips对于一个文档来说比具有高tf-idf分数的单词更独特。例如,在关于 哈利·波特 术语 赫敏·格兰杰 和 霍格沃茨 通常是更好的小口 魔术 和 伦敦 不是。TF-IDF不擅长区分这一点。 我发现了一个有趣的sips定义 here . 在这项工作中,短语被建模为n-gram,并计算出它们在文档中出现的概率,以确定它们的唯一性。 |
6
1
我相当肯定这本书是由SIPS组合而成的,它们把这本书看作是独一无二的。在你的例子中,几乎不可能有另一本书在同一本书中有“泄漏的抽象”和“自己的狗食”。 然而,我在这里做了一个假设,因为我不确定。 |
danial · 如何在多个字符串的每个位置找到最频繁的字符 2 年前 |
Manny · 如何比较Perl中的字符串? 2 年前 |
Diret · 获取范围内每个数字的子倍数的算法 2 年前 |
Saif · 排序时python如何决定何时调用比较器? 2 年前 |