代码之家  ›  专栏  ›  技术社区  ›  mel

如何使用scikit learn获取特定文档的主题概率?

  •  1
  • mel  · 技术社区  · 7 年前

    tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word")
    tfidf = tfidf_vectorizer.fit_transform(data_samples)
    lda = LatentDirichletAllocation(n_topics=5, max_iter=5,
                                    learning_method='online',
                                    learning_offset=50.,
                                    random_state=0)
    lda.fit(tfidf)
    

    现在我想得到在我的 data_sample 例如,由于我使用了5个主题,因此要属于给定主题: [0.2, 0.1 ,0.1, 0.1, 0.5] ,关于LDA的文档很弱,你知道这些信息是否容易获取吗?

    我不知道,它不允许我在这里添加评论,但它允许我添加到其他人的帖子。

    1 回复  |  直到 6 年前
        1
  •  3
  •   Hernan C. Vazquez    7 年前

    我最近也有同样的问题。您可以使用以下方法将模型应用于每个样本: lda.transform(tfidf)

    注意,您需要使用向量tfidf。

    我认为“transform”这个名字来自 data transformation