|
1
0
当单词被转换成向量时,我们讨论单词的相似性。例如,可以使用余弦相似度来确定两个单词之间的距离。“dog”和“puppy”的向量是相似的,所以可以说这两个词彼此很接近。 换句话说,亲密度也取决于语境词。所以,根据句子,单词对(the,cat)可以很接近。这就是word2vec或类似算法创建词向量的工作原理。 |
![]() |
2
0
本文中的“Top”与文本转换为数值数组的方式直接相关。通过使用TFIDF,您可以根据每个文档中单词的流行程度为每个单词分配一个分数,这与整个文档集中的流行程度相反。文档中得分高的词表示它比其他词更重要或更具代表性。 因此,对于每个集群的这一代顶级术语来说,它们是在该集群的文档中平均最重要的词。
这里的方法是有效的,但是我发现很难理解我自己,我不认为这是特别直观的,因为很难理解为什么,如果
我使用另一种方法来找到一个更直观的集群的顶级术语。我刚刚在250个文档的语料库中测试了你自己发布的方法,上面的单词完全一样。我的方法的价值在于,它可以工作,但是只要您能够提供集群分配列表(任何集群算法都应该提供),就可以对文档进行集群,这意味着您不依赖于
这个
|
![]() |
Alexander · 分组数据中的kmeans聚类 6 年前 |
![]() |
Behzad · K-均值聚类R-树boost 6 年前 |
![]() |
Sir1 · 考虑中心顺序的kmean结果中重新标记样本 7 年前 |
![]() |
havakok · 二次MATLAB主元分析中新点的投影 7 年前 |
![]() |
Laurent Magon · 如何找到k均值聚类的数值区间? 7 年前 |