1
2
大多数余弦类似于
如果使用欧几里德距离而不是余弦相似度,在原始(非单位规格化)词向量上,您可能会发现一些其他有趣的关系。。。但这不是典型的使用/比较词向量的方法,因此您必须进行实验,我对您可能找到的内容或是否有用没有任何期望。 一般来说,原始的非单位规范化词向量对于具有单一狭义意义的词(它们出现的所有上下文都非常相似)具有更高的量值,而具有多种意义和不同上下文的词往往具有更小的量值。但我不确定你能从多大程度上相信这一点。一旦单词向量被标准化为单位长度,因此所有单词都在同一个“单位范围”中,那么 等级顺序 近邻的余弦距离或欧几里德距离将相同(即使距离/相似数的大小在每个秩上不相同或成比例)。 |