y轴在随机森林偏倚图中的意义


13

我正在使用RandomForestR包,并对如何在其偏相关图中解释Y轴的值感到困惑。帮助文档指出,该图是“变量对类概率的边际影响的图形描述”。但是,我仍然对y轴的确切含义感到困惑。

  • 特别是,负值是什么意思?
  • 对准确预测班级产生负面影响是什么意思?
  • 这些图中最重要的特征是最大值,趋势形状等吗?
  • 您可以将局部图与其他变量的局部图进行比较吗?
  • 这些图如何与Maxent(一种分布建模软件)中创建的响应曲线进行比较?

一些部分依赖图示例

Answers:


7

首先回答这两个问题:

特别是,负值是什么意思?对准确预测班级产生负面影响是什么意思?

如果您查看《随机森林》软件包文档中有关如何计算局部图的定义,可以说该图从模型的角度显示了变量对类概率的相对logit贡献。换句话说,根据模型,负值(在y轴上)表示自变量(x轴)的正值类别的可能性较小。同样,正值表示根据模型,自变量的那个值更可能为正类别。显然,根据模型,零表示对类别概率没有平均影响。

这些图中最重要的特征是最大值,趋势形状等吗?

确定特征重要性的方法很多,最大绝对值只是一种简单的度量。通常,人们查看局部图的形状,以收集对模型所暗示的关于变量到类标签之间关系的建议的理解。

您可以将局部图与其他变量的局部图进行比较吗?

答案是少用黑白。您可以肯定地查看每个图的y轴范围;如果在一个变量的整个范围内对一个变量的部分依赖关系接近于零,则表明模型从变量到类标签没有任何关系。回到您的问题,范围越大,总体影响越强,因此可以比较它们。

我没有与Maxent合作的经验。


假设模型是针对2类分类的,那么如何确定哪个类是正类,哪个是负类?
Kumar Vaibhav

这是一个很好的问题,您必须尝试一下才能看到。文档在此处的第17页上说,如果y是一个因素,那么就假定这是一个分类问题。但是,它并没有说明它将映射到正面或负面类别的因素。我希望1或真被映射到正类和0,-1,或虚假映射到负类,但我不会想当然地认为是在R
克里斯A.

中有一个which.class参数,partialPlot默认为factor的第一级y。因此,如果第一个级别y是否定案例,partialPlot则将预测否定案例,这可能不是人们所期望的。
qoheleth
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.