在随机森林中,较大的%IncMSE是更好还是更坏?


17

在R中建立一个(回归)随机森林模型后,该调用rf$importance为我提供了两个针对每个预测变量的度量,%IncMSEIncNodePurity%IncMSE值较小的预测变量%IncMSE比值较大的预测变量重要吗?

怎么样IncNodePurity

Answers:


30

%IncMSE是最可靠,最有用的方法。这是由于对变量j进行了排列(值随机混排)导致的预测mse的增加(用袋外CV估计)。

  1. 生长回归森林。计算OOB-mse,将其命名为mse0。
  2. 对于1到j var:置换列j的值,然后预测和计算OOB-mse(j)
  3. 第j个的%IncMSE为(mse(j)-mse0)/ mse0 * 100%

数字越大,越重要

IncNodePurity与损耗函数有关,损耗函数是通过最佳分割来选择的。损失函数是mse用于回归,基尼杂质是用于分类。更有用的变量可实现节点纯度的更高提高,即找到一个具有较高节点间“方差”和较小节点内“方差”的拆分。IncNodePurity是有偏见的,仅在无法计算%IncMSE的额外计算时间时才应使用。由于只需要5〜25%的额外时间来计算%IncMSE,几乎不会发生这种情况。

类似的问答

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.