代码之家  ›  专栏  ›  技术社区  ›  Ruan

在word2vec中,作为彼此标量倍数的词向量之间的语义关系是什么?

  •  1
  • Ruan  · 技术社区  · 6 年前

    假设你有一个单词向量 queen . 它的一些标量倍数是 x = queen + queen , y = queen + queen + queen n * queen 对于n的任何实数值(因此我们还考虑n的非整数值,例如 0.83 * queen ).

    根据最相似词的投影权重向量的简单平均值与向量皇后+皇后之间的余弦相似性,认为x是与向量皇后+皇后最相似的词。

    用同样的方法把y看作与向量皇后+皇后+皇后最相似的单词。

    那么单词之间的语义关系是什么 x , y 女王 ? 我知道这些向量在向量的维值之间的比率都是一样的,但是我很难从词义的角度来理解。

    我的直觉告诉我,我会在另一个上下文中得到类似于queen的位置。例如,女王的“财富”可能远远大于女王的“美丽”。因此,我将在另一个上下文中得到另一个词,它与“皇后”具有相同的财富/美貌平衡。

    所以,假设我从皇室头衔(女王,国王,公主…)调离登上福布斯榜单(杰夫•贝佐斯、比尔•盖茨、沃伦•巴菲特……)当我用n乘皇后时。

    queen*n=福布斯榜单上的某个人拥有和queen一样的财富/美貌平衡(非常富有,但并不十分漂亮)

    公主*n=福布斯榜单上的某个人拥有和公主一样的财富/美貌平衡(中等富裕,但非常漂亮)

    然而,这只是一个疯狂的理论,我不知道如何系统地证明这是真的。

    1 回复  |  直到 6 年前
        1
  •  2
  •   gojomo    6 年前

    大多数余弦类似于 wv['queen'] 与大多数余弦相似 n * wv['queen'] ,对于任何 n ,因为余弦相似性不受向量大小的影响。所以,你的假设是错误的。

    如果使用欧几里德距离而不是余弦相似度,在原始(非单位规格化)词向量上,您可能会发现一些其他有趣的关系。。。但这不是典型的使用/比较词向量的方法,因此您必须进行实验,我对您可能找到的内容或是否有用没有任何期望。

    一般来说,原始的非单位规范化词向量对于具有单一狭义意义的词(它们出现的所有上下文都非常相似)具有更高的量值,而具有多种意义和不同上下文的词往往具有更小的量值。但我不确定你能从多大程度上相信这一点。一旦单词向量被标准化为单位长度,因此所有单词都在同一个“单位范围”中,那么 等级顺序 近邻的余弦距离或欧几里德距离将相同(即使距离/相似数的大小在每个秩上不相同或成比例)。