Answers:
在随机森林中的变量重要性计算如下:
然后,对单个列的值进行置换,并再次计算MSE。例如,如果列(Col1)取值为1,2,3,4,则这些值的随机排列将得出4,3,1,2。这产生一个MSE1。然后,MSE(即MSE1-MSE)的增加将表明变量的重要性。
我们期望差异为正,但是在负数的情况下,它表示随机排列效果更好。可以推断出变量在预测中没有作用,即不重要。
希望这可以帮助!
请参考以下链接以获得详细说明!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
这可能只是随机波动(例如,如果您的ntree小)。
如果不是,则可能表明您的数据中存在一些严重的悖论,即,具有几乎相同的预测变量和非常不同的结果的对象对。在这种情况下,我将检查模型是否真正有意义,然后开始思考如何获取更多属性来解决它们。