代码之家 › 专栏 › 技术社区 › Bram Vanroy

了解gensim word2vec的最相似之处

word2vec gensim nlp python-3.x python

Bram Vanroy · 技术社区 · 6 年前

我不确定该如何使用Gensim的word2vec中最相似的方法。假设您想测试以下经过考验的真实例子: 男人站在国王面前,女人站在X面前。 找到x。我认为这就是你可以用这个方法做的,但从我得到的结果来看,我不认为这是真的。

找到最相似的前n个单词。积极的词有助于相似度为正,否定词为负。

该方法计算了给定词的投影权重向量和每个词的向量模型中的单词。该方法对应于单词类比和原始word2vec实现中的距离脚本。

那么,我想 most_similar 取正例和负例,试图在向量空间中找到尽可能靠近正矢量和尽可能远离负矢量的点。对吗?

此外,是否有一种方法可以让我们将两个点之间的关系映射到另一个点并得到结果(参见“男人王女人X”示例)?

1 回复 | 直到 6 年前

gojomo 6 年前

你可以确切地看到 most_similar() 在其源代码中执行以下操作:

这不是“在向量空间中找到尽可能靠近正向量和尽可能远离负向量的点”。相反,正如最初的word2vec论文中所描述的,它执行向量运算:添加正向量,减去负向量,然后从结果位置,列出最接近该角度的已知向量。

这足以解决 man : king :: woman :: ? -风格类比,通过一个调用,比如:

sims = wordvecs.most_similar(positive=['king', 'woman'], 
                             negative=['man'])

(您可以将其视为“从‘国王’矢量开始,添加‘女人’矢量,减去‘男人’矢量,从您结束的地方,报告最接近该点的排名单词矢量。”)

推荐文章

Aaron Green · 我的python程序无法识别数据库的存在,即使它在那里

1 年前

danial · 如何在多个字符串的每个位置找到最频繁的字符

2 年前

Henry · 使用Python将json重新格式化为键值对

2 年前

eymentakak · json字典类型错误:字符串索引必须是整数

2 年前

Qubix · 从熊猫数据帧创建相对熵矩阵

2 年前

FÄÅ ÛÅ · 字典、列表和字符串

2 年前

OrbitDuster · 如何使用gmail api在python中打印gmail正文?

2 年前

guiguilecodeur · 如何删除我的词汇表中的重复元素

2 年前

Susheel P M · 这是关于if-else语句[关闭]

2 年前

Slartibartfast · 关于Python版本安装

2 年前