解释部分依赖图的y轴


22

我已经阅读了有关局部依赖图的其他主题,其中大多数都是关于如何使用不同的程序包实际绘制它们,而不是如何准确地解释它们,所以:

我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量(χc)的平均影响来衡量变量χs对函数ƒS(χS)的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是,我对这种定性解释不满意。

该链接显示了我的许多情节之一。 http://imgur.com/RXqlOky

我的模型(随机森林)正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量,已被证明是一个很好的变量。

我开始认为Y值显示出正确分类的可能性。示例:y(0.2)表明TRI值>〜30时,有20%的机会正确识别True Positive分类。

相反地

y(-0.2)显示TRI值<〜15具有20%的机会正确识别真阴性分类。

文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”,仅此而已。对于可能潜在地谈论您的数据太多的情节来说,这听起来很模糊和毫无意义。

另外,我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗?

我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了?

我已经非常详尽地阅读了统计学习的要素:数据挖掘,推理和预测,这是一个很好的起点,但仅此而已。


该图平均显示直到TRI 30为止的yes树概率,此后增加。该链接说明了如何解释PDP二进制分类和连续变量图。
LazyNearestNeigbour

Answers:


13

给定固定的TRI水平,偏倚图上的每个点都是所有观察结果中赞成“是树”类的平均投票百分比。

这不是正确分类的可能性。它与准确性,真实的否定和真实的肯定绝对无关。

当你看到这句话

大于TRI 30的值开始对模型中的分类产生积极影响

是一种鼓吹的说法

大于TRI 30的值比小于TRI 30的值更能强烈地预测“是树”


2

偏相关函数从根本上为您提供了该变量的“平均”趋势(将模型中的所有其他变量整合在一起)。趋势的形状是“重要的”。您可以根据不同的预测变量来解释这些图的相对范围,而不是绝对范围。希望能有所帮助。


2

查看y轴值的一种方法是,在其他图中它们彼此相对。当该数字的绝对值高于其他图表时,这意味着更重要的原因是该变量对输出的影响更大。

如果您对部分依存关系图背后的数学方法以及该数字的估计方式感兴趣,可以在这里找到:http : //statweb.stanford.edu/~jhf/ftp/RuleFit.pdf第8.1节

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.