通过随机森林和线性回归得出的特征重要性不同


9

应用套索对特征进行排名并得到以下结果:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

请注意,数据集具有3个标签。不同标签的功能等级相同。

然后将随机森林应用于相同的数据集:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

请注意,排名与套索产生的排名有很大不同。

如何解释差异?是否暗示基础模型固有地是非线性的?


功能的等级并不能真正在不同的分类器之间转换。要测试模型是非线性的,在这里看到,例如:stats.stackexchange.com/questions/35893/...
亚历R.

1
功能重要性仅是基于“启发式”的建议。有时它们可​​能不可靠。我通常比拉索更信任随机森林。
Gerenuk'6

Answers:


6

因此,您的查询是将线性回归与随机森林模型得出的变量重要性进行比较。

R2

另一种流行的方法是对顺序求平均值(LMG,1980)。LMG的工作方式如下:

  • SSa/SStotalR2a
  • a,b,cb,a,cb,c,a
  • 求出每个阶的半偏相关的平均值。这是订购的平均值。

随机森林算法适合多棵树,森林中的每棵树都是通过从数据集中随机选择不同特征来构建的。通过选择和拆分来构建每棵树的节点,以最大程度地减少方差。在对测试数据集进行预测时,对单个树的输出求平均值,以获得最终输出。在所有树中对每个变量进行置换,并计算置换前后的样本外误差之差。差异最大的变量被认为是最重要的,而数值较小的变量则不那么重要。

与随机森林模型相比,线性回归模型将模型拟合到训练数据上的方法非常不同。但是,这两个模型在变量之间均不包含任何结构关系。

关于因变量的非线性的查询:套索本质上是线性模型,与基于树的模型相比,它不能为基础的非线性过程提供良好的预测。您应该能够通过在预留测试集上验证模型的性能来进行检查,如果随机森林的性能更好,则基础过程可能是非线性的。或者,您可以在套索模型中包括使用a,b和c创建的变量交互效应和高阶变量,并验证该模型与仅具有a,b和c线性组合的套索相比是否表现更好。如果是这样,则基础过程可能是非线性的。

参考文献:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.