![]() |
1
1
太长,读不下去了 http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html 我想澄清一些措辞,以确保我们意见一致。
1、预测能力 您的功能重要性向您展示了哪些功能保留了最多的信息,哪些功能是最重要的 重要的 特征。权力可能意味着什么导致了最大的变化-你必须插入虚拟值来检查,以查看其整体影响,就像你必须处理线性回归系数一样。 2、相关性/依赖性 正如@Tiago1984所指出的,它在很大程度上取决于底层算法。XGBoost/GBM正在另外建立一个存根委员会(决策树数量较少,通常只有一个分裂)。 在回归问题中,树通常使用与MSE相关的标准。我不会详细介绍,但您可以在这里阅读更多内容: https://medium.com/towards-data-science/boosting-algorithm-gbm-97737c63daa3 你会看到,在每一步中,它都会为弱学习者的“方向”计算一个向量,因此原则上你知道它的影响方向(但请记住,它可能会在一棵树中、在加法模型的多个步骤中多次出现)。
但是,直奔主题;除了
看看 部分依存图 http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html 还有一章是关于它的 统计学习要素 ,第10.13.2章。 |
![]() |
2
1
特征的“重要性”取决于用于构建树的算法。例如,在C4.5树中,经常使用最大熵准则。这意味着特征集允许使用更少的决策步骤进行分类。 |
![]() |
3
1
是的,我们有。特征重要性不是什么神奇的对象,它是一个定义良好的数学标准——其精确定义取决于特定的模型(和/或一些额外的选择),但它始终是一个告诉“为什么”的对象。“为什么”通常是最基本的可能,归结起来是“因为它有最强的预测能力”。例如,随机森林特征重要性是衡量当随机选择的训练数据点被推过树时,该特征在决策路径上使用的可能性。所以它给出了一个恰当的数学意义上的“为什么”。 |
![]() |
bz_jf · CNN训练损失太不稳定了 2 年前 |
![]() |
Bad Coder · 如何在Pyte中使用SMOTE? 2 年前 |
![]() |
Sherwin R · 随机森林预测错误的输出形状 2 年前 |
![]() |
Palkin Jangra · 如何迭代一列以获得每行的平均值? 2 年前 |