代码之家 › 专栏 › 技术社区 › Nicolò Gasparini

查找与一组词最接近的词

gensim word2vec nlp python

Nicolò Gasparini · 技术社区 · 6 年前

我需要找到一些与 model.most_similar()
同时 most_similar() 返回一个与作为输入的单词最相似的单词数组,我需要找到一个单词列表的“中心”。

在gensim或其他工具中有什么功能可以帮助我吗?

例子:
鉴于 {'chimichanga', 'taco', 'burrito'} 中心可能是 mexico 或 food ,这取决于模型所基于的语料库

1 回复 | 直到 6 年前

gojomo 6 年前

如果你提供一个单词列表作为 positive 论证 most_similar() ,它将报告最接近其意思的单词(这似乎是对单词“center”的合理解释)。

例如:

sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])

(我有点怀疑最重要的结果 sims[0] 这里要么是“墨西哥”要么是“食物”;很可能是另一个墨西哥食物词。无论是在word2vec单词之间,还是在某些方向上,都不一定存在“更通用的”超名称关系。但是一些其他的嵌入技术,比如 hyperbolic embeddings ,可能会提供这一点。)

推荐文章

user18628526 · 什么时候使用Word2vec和一大堆单词?

3 年前

Rahul Jain · CNN on word vectors抛出输入维度错误

7 年前

abdalmohaymen aliesmaeel · gensim模型返回ID与输入doc2vec不相关

7 年前

surya · UnpicklingError:加载键“3”无效

7 年前

j-s · 如何在python中使用gensim和word2vec查找语义相似度

7 年前

Marsellus Wallace · 如何从预先训练的单词嵌入数据集创建Keras嵌入层?

7 年前

richards · 具有初始值的Gensim单词嵌入训练

7 年前

vish · Spark MLib Word2Vec错误:词汇大小应大于0

7 年前

pankaj · 如何从pandas中的词典中为特定单词列表创建前5个紧密单词的数据框架

7 年前

whs2k · Pyspark如何从word2vec word嵌入计算Doc2Vec?

7 年前