代码之家 › 专栏 › 技术社区 › Ruan

在word2vec中,作为彼此标量倍数的词向量之间的语义关系是什么?

linguistics word2vec pca nlp machine-learning

Ruan · 技术社区 · 6 年前

假设你有一个单词向量 queen . 它的一些标量倍数是 x = queen + queen , y = queen + queen + queen 和 n * queen 对于n的任何实数值(因此我们还考虑n的非整数值,例如 0.83 * queen ).

根据最相似词的投影权重向量的简单平均值与向量皇后+皇后之间的余弦相似性,认为x是与向量皇后+皇后最相似的词。

用同样的方法把y看作与向量皇后+皇后+皇后最相似的单词。

那么单词之间的语义关系是什么 x , y 和 女王 ? 我知道这些向量在向量的维值之间的比率都是一样的,但是我很难从词义的角度来理解。

我的直觉告诉我,我会在另一个上下文中得到类似于queen的位置。例如,女王的“财富”可能远远大于女王的“美丽”。因此,我将在另一个上下文中得到另一个词,它与“皇后”具有相同的财富/美貌平衡。

所以,假设我从皇室头衔(女王,国王,公主…)调离登上福布斯榜单(杰夫•贝佐斯、比尔•盖茨、沃伦•巴菲特……)当我用n乘皇后时。

queen*n=福布斯榜单上的某个人拥有和queen一样的财富/美貌平衡(非常富有,但并不十分漂亮)

公主*n=福布斯榜单上的某个人拥有和公主一样的财富/美貌平衡(中等富裕,但非常漂亮)

然而,这只是一个疯狂的理论,我不知道如何系统地证明这是真的。

1 回复 | 直到 6 年前

gojomo 6 年前

大多数余弦类似于 wv['queen'] 与大多数余弦相似 n * wv['queen'] ,对于任何 n ,因为余弦相似性不受向量大小的影响。所以,你的假设是错误的。

如果使用欧几里德距离而不是余弦相似度,在原始(非单位规格化)词向量上,您可能会发现一些其他有趣的关系。。。但这不是典型的使用/比较词向量的方法,因此您必须进行实验,我对您可能找到的内容或是否有用没有任何期望。

一般来说,原始的非单位规范化词向量对于具有单一狭义意义的词(它们出现的所有上下文都非常相似)具有更高的量值,而具有多种意义和不同上下文的词往往具有更小的量值。但我不确定你能从多大程度上相信这一点。一旦单词向量被标准化为单位长度,因此所有单词都在同一个“单位范围”中,那么 等级顺序 近邻的余弦距离或欧几里德距离将相同(即使距离/相似数的大小在每个秩上不相同或成比例)。

推荐文章

user18628526 · 什么时候使用Word2vec和一大堆单词?

2 年前

Rahul Jain · CNN on word vectors抛出输入维度错误

6 年前

abdalmohaymen aliesmaeel · gensim模型返回ID与输入doc2vec不相关

6 年前

surya · UnpicklingError:加载键“3”无效

6 年前

j-s · 如何在python中使用gensim和word2vec查找语义相似度

6 年前

Marsellus Wallace · 如何从预先训练的单词嵌入数据集创建Keras嵌入层?

6 年前

richards · 具有初始值的Gensim单词嵌入训练

7 年前

vish · Spark MLib Word2Vec错误:词汇大小应大于0

7 年前

pankaj · 如何从pandas中的词典中为特定单词列表创建前5个紧密单词的数据框架

7 年前

whs2k · Pyspark如何从word2vec word嵌入计算Doc2Vec?

7 年前