代码之家  ›  专栏  ›  技术社区  ›  myname

Python中使用LDA模型获取样本外文档的主题权重

  •  1
  • myname  · 技术社区  · 9 年前

    我在Python中使用LDA( https://pypi.python.org/pypi/lda )获取一组文档的主题。我能够获得用于训练模型的文档的主题及其权重。是否有方法将模型应用于估算LDA时未包含的文档?例如,如果我使用文档1-100来估计主题,我可以将模型应用于文档101-200以获得这些样本文档的主题权重吗?我正在使用的LDA python包是否可以做到这一点?

    如果您单击我上面提供的链接,它将给出一个示例,说明如何获取示例文档中的主题权重:

    doc_topic = model.doc_topic_
    for i in range(10):
        print doc_topic[i]
    

    是否有类似的功能适用于样本外的文档?

    1 回复  |  直到 9 年前
        1
  •  3
  •   gabe    9 年前

    是的,在您适合模型后 transform 看见 http://pythonhosted.org/lda/api.html#lda.lda.LDA.transform

    类似的东西

    topics = model.transform(out_of_sample_docs)