代码之家  ›  专栏  ›  技术社区  ›  utengr

设置fastText的字符n-grams的最大长度

  •  0
  • utengr  · 技术社区  · 7 年前

    我想在这个比较教程的基础上比较word2vec和fasttext模型。 https://github.com/jayantj/gensim/blob/fast_text_notebook/docs/notebooks/Word2Vec_FastText_Comparison.ipynb

    根据这一点,当我们将字符n-gram的最大长度设置为零时,fastText模型的语义准确性会提高,因此fastText开始表现得几乎像word2vec。它忽略了ngrams。

    然而,我找不到任何关于如何在加载fastText模型时设置此参数的信息。有什么办法吗?

    1 回复  |  直到 7 年前
        1
  •  2
  •   gojomo    7 年前

    在训练时设置参数,然后使用该参数建立模型,并依赖该参数进行解释。因此,您通常不会在加载已训练的模型时更改它,而且gensim(或原始FastText)中没有API来更改已训练模型的设置。

    可以 能够近似忽略已训练的字符图形的效果,但这将是一种新模式,与您链接的笔记本中评估的未训练的字符图形模式完全不同。它可能会产生有趣或可怕的结果,如果不尝试,就无法判断。)