![]() |
1
3
仅仅使用最后一个吉布斯样本的术语主题计数不是一个好主意。这样的方法没有考虑主题结构:如果一个文档有来自一个主题的多个单词,那么很可能会有来自该主题的更多单词[1]。 例如,假设两个单词在两个主题中的概率相等。给定文档中第一个单词的主题分配会影响另一个单词的话题概率:另一个词更可能与第一个词处于同一主题中。这种关系也以另一种方式运作。这种情况的复杂性就是为什么我们使用吉布斯采样这样的方法来估计这类问题的值。 至于你对主题作业的评论不尽相同,这是无济于事的,可以看作是一件好事:如果一个单词的主题作业不一样,你就不能依赖它。您所看到的是,该词的主题后验分布没有明确的胜利者,因此您应该谨慎对待特定的任务:) [1] 假设beta是文档主题分发的先行者,它鼓励了主题模型通常选择的稀疏性。 |
![]() |
2
3
真正的问题是计算复杂性。如果一个文档中的N个标记中的每一个都可以有K个可能的主题,那么就有K到N个可能的话题配置。有了两个主题和一个答案大小的文件,你就有了比宇宙中原子数量更多的可能性。 然而,从这个搜索空间中进行采样是非常有效的,并且如果你平均连续三到五次吉布斯扫描,通常会得到一致的结果。你要做一些计算上不可能的事情,而这会给你带来一些不确定性。 如前所述,您 可以 通过设置一个固定的随机种子来获得“确定性”结果,但这实际上并不能解决任何问题。 |
![]() |
Dan · 定义病例的R(分层)随机抽样 6 年前 |
![]() |
Gamp · 使用R从给定概率分布采样 7 年前 |
![]() |
hopieman · 如何将OHLCV数据重新采样为5分钟? 7 年前 |
![]() |
LUSAQX · 复制数据集中的样本? 8 年前 |
![]() |
probitaille · 如何精确采样频率为60Hz的数据? 8 年前 |
![]() |
Ben · LDA:为什么要对新文档进行推理抽样? 9 年前 |