可变重要性randomForest负值


Answers:


5

在随机森林中的变量重要性计算如下:

  1. 最初,使用原始变量计算模型的MSE
  2. 然后,对单个列的值进行置换,并再次计算MSE。例如,如果列(Col1)取值为1,2,3,4,则这些值的随机排列将得出4,3,1,2。这产生一个MSE1。然后,MSE(即MSE1-MSE)的增加将表明变量的重要性。

  3. 我们期望差异为正,但是在负数的情况下,它表示随机排列效果更好。可以推断出变量在预测中没有作用,即不重要。

希望这可以帮助!

请参考以下链接以获得详细说明!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

这可能只是随机波动(例如,如果您的ntree小)。

如果不是,则可能表明您的数据中存在一些严重的悖论,即,具有几乎相同的预测变量和非常不同的结果的对象对。在这种情况下,我将检查模型是否真正有意义,然后开始思考如何获取更多属性来解决它们。


2
您能否再详细说明一下“数据悖论”?我不太了解,想了解您的解释。
吉基瓦(Jequihua)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.