![]() |
1
2
主题模型方法(主题提取)是无监督的方法。因此,您不需要知道每个文档都属于哪些类别(类)[ https://en.wikipedia.org/wiki/Topic_model] . 潜在Dirichlet分配(LDA)是一种主题建模方法。LDA将文档划分为主题,并为主题指定名称。[ https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 与聚类方法一样,主题模型需要输出集群的数量。但它们为每个输出集群分配一个主题名称。 与主题模型方法相比,文档分类方法(分类)受到监督。因此,他们需要类标签。[ https://en.wikipedia.org/wiki/Document_classification] |
![]() |
Hackerds · 在正则表达式中捕获多个组不会返回任何结果 7 年前 |
![]() |
BARIK FATI · 如何构建hashtags语料库(文本挖掘) 7 年前 |
![]() |
Max TC · 在R中匹配并替换字符串中拼写错误的单词 7 年前 |
|
Bhavya · 从R中的dtm中按每个文档的频率提取顶部特征 7 年前 |
![]() |
FF0605 · 如何在python中将多个句子转换为二元图 7 年前 |
![]() |
Ravindra Nadh · twitter用户名的R正则表达式 7 年前 |