1
26
我搞不清楚的问题是,最后你会得到k个决策树,它们可能会略有不同,因为它们可能不会以相同的方式拆分,等等。你会选择哪棵树? 交叉验证的目的 不是帮助选择一个特定的 实例 模型 ,即提供诸如平均错误率、相对于该平均值的偏差等指标,这些指标可用于确定应用程序的精度水平。交叉验证可以帮助断言的一件事是训练数据是否足够大。 ,您应该在100%的可用训练数据上运行另一个训练,因为这通常会生成更好的树(交叉验证方法的缺点是,我们需要将[通常很少]数量的训练数据划分为“折叠”,正如您在问题中所暗示的,这可能会导致树对特定数据实例的拟合过度或不足)。 在决策树的情况下,我不确定您对收集在节点中并用于修剪树的统计数据的引用属于什么。可能是交叉验证相关技术的特殊使用?。。。 |
2
6
对于第一部分,正如其他人所指出的,我们通常使用整个数据集来构建最终模型,但是我们使用 交叉验证 第二部分,我认为你把简历和 验证集 过度装配 当在验证集上计算的某个函数值在拆分之前/之后没有增加时,通过修剪节点生成树。 |
3
3
你选哪棵树?一种选择是,使用所有用于训练集的数据创建一个新的树。 |
4
3
已经提到,交叉验证的目的是验证模型。换言之,交叉验证为我们提供了使用所选“参数”生成的模型的误差/精度估计,无论使用的数据如何。 |
5
2
交叉验证不用于构建/修剪决策树。它用于通过模拟新数据的到达来估计树(基于所有数据构建)的性能(通过构建树而不使用您编写的某些元素)。我真的没有必要选择由它生成的一棵树,因为模型受到您拥有的数据的约束(如果不全部使用它,当您使用树来获取新数据时,情况可能会更糟)。
|
6
1
我目前面临着同样的问题,我认为没有正确的答案,因为概念是矛盾的,它是模型稳健性和模型解释之间的权衡。 我基本上选择决策树算法是为了易于解释、可视化和直接的实际应用。 另一方面,我想用交叉验证来证明模型的健壮性。 我想我将采用两步方法: 2.将整个数据集用于最终决策树,以获得可解释的结果。
|
bz_jf · CNN训练损失太不稳定了 2 年前 |
Bad Coder · 如何在Pyte中使用SMOTE? 2 年前 |
Sherwin R · 随机森林预测错误的输出形状 2 年前 |
Palkin Jangra · 如何迭代一列以获得每行的平均值? 2 年前 |