在R中建立一个(回归)随机森林模型后,该调用rf$importance
为我提供了两个针对每个预测变量的度量,%IncMSE
和IncNodePurity
。%IncMSE
值较小的预测变量%IncMSE
比值较大的预测变量重要吗?
怎么样IncNodePurity
?
在R中建立一个(回归)随机森林模型后,该调用rf$importance
为我提供了两个针对每个预测变量的度量,%IncMSE
和IncNodePurity
。%IncMSE
值较小的预测变量%IncMSE
比值较大的预测变量重要吗?
怎么样IncNodePurity
?
Answers:
%IncMSE是最可靠,最有用的方法。这是由于对变量j进行了排列(值随机混排)导致的预测mse的增加(用袋外CV估计)。
数字越大,越重要
IncNodePurity与损耗函数有关,损耗函数是通过最佳分割来选择的。损失函数是mse用于回归,基尼杂质是用于分类。更有用的变量可实现节点纯度的更高提高,即找到一个具有较高节点间“方差”和较小节点内“方差”的拆分。IncNodePurity是有偏见的,仅在无法计算%IncMSE的额外计算时间时才应使用。由于只需要5〜25%的额外时间来计算%IncMSE,几乎不会发生这种情况。