代码之家  ›  专栏  ›  技术社区  ›  r1d1

主题提取和文本分类在概念上有什么区别?

  •  1
  • r1d1  · 技术社区  · 7 年前

    我很困惑,非常相似的文本挖掘服务有不同的名称,比如主题提取和文本分类。它们在概念上有什么区别?

    主题提取示例: https://www.uclassify.com/browse/uclassify/topics?input=Text

    分类示例: https://dandelion.eu/semantic-text/text-classification-demo/

    1 回复  |  直到 7 年前
        1
  •  2
  •   rouhollah ghasempour    7 年前

    主题模型方法(主题提取)是无监督的方法。因此,您不需要知道每个文档都属于哪些类别(类)[ https://en.wikipedia.org/wiki/Topic_model] . 潜在Dirichlet分配(LDA)是一种主题建模方法。LDA将文档划分为主题,并为主题指定名称。[ https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 与聚类方法一样,主题模型需要输出集群的数量。但它们为每个输出集群分配一个主题名称。 与主题模型方法相比,文档分类方法(分类)受到监督。因此,他们需要类标签。[ https://en.wikipedia.org/wiki/Document_classification]