1
5
通常我会同意Vivek的观点,并告诉你要相信你的交叉验证。 然而,随机林中固有一定程度的CV,因为每棵树都是从自举样本中生长出来的,所以在运行交叉验证时,您不应该期望看到准确度会有如此大的降低。我怀疑您的问题是由于数据排序中的某种时间或位置依赖性造成的。
当您使用
简单的解决方案是
在使用串联数据集时,我曾多次遇到过这个问题,肯定还有数百人已经意识到了问题所在,也没有意识到问题所在。默认行为的思想是维护时间序列中的秩序(从我在GitHub讨论中看到的)。 |
2
4
在
现在,您应该认为80%的训练数据大于60%,因此准确性不应降低。但这里还有一件事需要注意。
这个
我建议以cross\u val\u分数作为最终分数。 |
3
2
您的数据可能具有某种固有的顺序。在进行CV时,将“shuffle”更改为true。 |
Mikz · 随机林中列车和测试数据拆分查询 6 年前 |
Randoms · R: 检查培训数据中的变量 6 年前 |
C. Zed · 为什么我的新数据会得到同样的预测? 6 年前 |
abu · 在macOS上并行执行randomforestSRC 7 年前 |
Mike · R插入符号中随机森林的混淆矩阵 7 年前 |
shubham jain · 随机森林是AdaBoost的特例吗? 7 年前 |