1
3
这不是我所说的“过度拟合”。与测试指标相比,您看到非常好的交叉验证指标的原因是您有时间序列数据,因此您无法使用k倍交叉验证来准确估计性能。 在时间序列数据集上执行k倍交叉验证将为您提供过于乐观的性能指标,因为您不尊重数据中的时间序列组件。常规k-fold交叉验证将从整个数据集中随机采样,以创建一个训练集;验证集。本质上,你的验证策略是“作弊”,因为你的简历训练集中包含了“未来”数据(如果有意义的话)。 我可以从您的代码中看出,您理解需要使用“过去”数据进行训练,并预测“未来”数据,但如果您想阅读更多有关此主题的内容,我建议您使用以下内容 article 或者这个 article . 一种解决方案是简单地将测试集性能视为评估模型的方法。另一种选择是使用所谓的“滚动”或“时间序列”交叉验证,但H2O目前不支持这一点(尽管看起来可能很快就会添加)。这是一个 ticket |
Mikz · 随机林中列车和测试数据拆分查询 6 年前 |
Randoms · R: 检查培训数据中的变量 7 年前 |
C. Zed · 为什么我的新数据会得到同样的预测? 7 年前 |
abu · 在macOS上并行执行randomforestSRC 7 年前 |
Mike · R插入符号中随机森林的混淆矩阵 7 年前 |
shubham jain · 随机森林是AdaBoost的特例吗? 7 年前 |