1
0
就您的示例数据而言,似乎存在一个问题,因为6到10个是非信息性的停止词,其中一些甚至是停止词,例如“the”。 因此,您应该尝试的第一步是删除停止词。 回到您的问题,在top-K关键字提取中选择K值没有最佳实践。这在不同的文档中有所不同,因为一些文档比其他文档更具信息性(通常是多主题的),这意味着这些文档的K值应该更高。 确定停止点的一种方法是检查连续项之间tfidf值的相对差异,然后在该相对差异高于阈值的点停止,这表明您输出的关键信息量大幅下降。 假设您已经为每个术语计算了tfidf分数,并按照其值的降序对它们进行了排序,请计算以下内容 在添加每个新学期之前 如果上述表达式为true,其中delta是预定义的阈值,请添加新的术语。。。因为新术语的信息量是 足够近 已经在列表中的。否则,如果表达式为false,即差值大于delta,则停止。 注意:您可以使用不同的术语评分函数。。。不仅仅是tfidf。 |