代码之家  ›  专栏  ›  技术社区  ›  Nicolò Gasparini

查找与一组词最接近的词

  •  2
  • Nicolò Gasparini  · 技术社区  · 6 年前

    我需要找到一些与 model.most_similar()
    同时 most_similar() 返回一个与作为输入的单词最相似的单词数组,我需要找到一个单词列表的“中心”。

    在gensim或其他工具中有什么功能可以帮助我吗?

    例子:
    鉴于 {'chimichanga', 'taco', 'burrito'} 中心可能是 mexico food ,这取决于模型所基于的语料库

    1 回复  |  直到 6 年前
        1
  •  3
  •   gojomo    6 年前

    如果你提供一个单词列表作为 positive 论证 most_similar() ,它将报告最接近其意思的单词(这似乎是对单词“center”的合理解释)。

    例如:

    sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])
    

    (我有点怀疑最重要的结果 sims[0] 这里要么是“墨西哥”要么是“食物”;很可能是另一个墨西哥食物词。无论是在word2vec单词之间,还是在某些方向上,都不一定存在“更通用的”超名称关系。但是一些其他的嵌入技术,比如 hyperbolic embeddings ,可能会提供这一点。)