我需要找到一些与 model.most_similar() 同时 most_similar() 返回一个与作为输入的单词最相似的单词数组,我需要找到一个单词列表的“中心”。
model.most_similar()
most_similar()
在gensim或其他工具中有什么功能可以帮助我吗?
例子: 鉴于 {'chimichanga', 'taco', 'burrito'} 中心可能是 mexico 或 food ,这取决于模型所基于的语料库
{'chimichanga', 'taco', 'burrito'}
mexico
food
如果你提供一个单词列表作为 positive 论证 most_similar() ,它将报告最接近其意思的单词(这似乎是对单词“center”的合理解释)。
positive
例如:
sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])
(我有点怀疑最重要的结果 sims[0] 这里要么是“墨西哥”要么是“食物”;很可能是另一个墨西哥食物词。无论是在word2vec单词之间,还是在某些方向上,都不一定存在“更通用的”超名称关系。但是一些其他的嵌入技术,比如 hyperbolic embeddings ,可能会提供这一点。)
sims[0]