添加的变量图(部分回归图)在多元回归中有什么解释?


18

我有一个电影数据集模型,并使用了回归:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

给出了输出:

在此处输入图片说明

现在,我第一次尝试使用名为“添加的变量图”的方法,得到以下输出:

car::avPlots(model, id.n=2, id.cex=0.7)

添加了变量图

问题是我试图使用google理解添加的变量图,但是我无法理解它的深度,看到该图我理解了它基于与输出相关的每个输入变量的偏斜表示。

我能否获得更多细节,例如其如何证明数据规范化?


4
@Silverfish为您的问题提供了很好的答案。关于如何处理特定数据集的小细节,线性模型似乎是一个非常糟糕的主意。选票显然是高度偏斜的非负变量,因此需要指示类似泊松模型的东西。请参见blog.stata.com/tag/poisson-regression。请注意,这种模型并不能使您相信响应的边际分布恰好是泊松,而不是标准线性模型可以使您假设边际正态性。
Nick Cox 2014年

2
观察线性模型效果不佳的一种方法是,注意到线性模型在相当一部分情况下预测为负值。在第一个残差图上,看到拟合左侧区域。=0
尼克·考克斯

谢谢尼克·考克斯(Nick Cox),我发现这里存在高度偏斜的非负性质,我必须考虑泊松模型,因此是否有任何链接可以使我正确地了解在基于数据集的哪种情况下使用哪种模型,并尝试使用我的数据集的多项式回归,这将是一个正确的选择……
Abhishek Choudhary14年

1
我已经提供了一个链接,该链接又提供了更多参考。抱歉,关于“基于数据集的方案”和“多项式回归”的问题,我不理解您的问题的后半部分。我怀疑您需要提出更多细节的新问题。
尼克·考克斯

您安装了什么软件包以便R识别功能avPlots
伊萨

Answers:


36

为了说明我将不太复杂的回归模型Y=β1+β2X2+β3X3+ϵ其中,预测变量X2X3可以是相关的。比方说,在斜坡β2β3均为正,所以我们可以说,(我)Y随着X2的增加,如果X3是保持不变的,因为β2为正; (ii)Y随着X3增大时,如果X2是保持恒定的,因为β3是正的。

请注意,重要的是要通过考虑其他变量保持恒定(“ ceteris paribus”)发生的情况来解释多个回归系数。假设我刚回归Y针对X2与模型Y=β1+β2X2+ϵ。我的斜率系数估计β2,其测量在作用Y的在增加一个单位X2 保持 X 3β 2从多重回归-这还测量上的效果X3恒定的,可以是从我的估计不同是相关的。β2Y的在增加一个单位X2,但它确实保持X3是恒定的。与我的估计问题β2^是它患有省略可变偏压,如果X2X3

要理解原因,可以想象X2X3是负相关的。现在,当我增加X2由一个单位,我知道的平均值Y因为应该增加β2>0。但作为X2的增加,如果我们不抱X3常量,那么X3趋于减少,而且由于β3>0,这将趋于减少的平均值Y。因此,如果我允许3,则X 2单位增加的整体效果会降低也各不相同,因此β ' 2 β 2X2X3β2<β2。事情变得更糟了更强烈的X2X3是相关的,并且效果就越大X3通过β3 -在一个非常严重的情况下,我们甚至会发现β2<0,即使我们知道,其他条件不变,X2Y有积极影响!

希望您现在可以看到为什么在X 2上绘制Y的图形对于可视化模型中YX 2之间的关系是一种糟糕的方法。在我的例子,你的眼睛会被吸引到具有斜率最佳拟合线的^ β ' 2不反映^ β 2从你的回归模型。在最坏的情况下,您的模型可能会预测Y随着X 2的增加而增加(其他变量保持不变),但是图形上的点表明Y随着X 2的增加而减少。X2YX2β2^β2^YX2YX2

问题在于,在YX2的简单图中,其他变量未保持恒定。这是对添加变量图(也称为偏回归图)的好处的关键见解-它使用Frisch-Waugh-Lovell定理“部分淘汰”其他预测变量的影响。绘图上的水平轴和垂直轴可能最容易理解*为“ 考虑其他预测变量后的X2 ”和“ 考虑其他预测变量后的Y ”。一旦考虑了所有其他预测变量,您现在就可以查看YX2 之间的关系。因此,例如,您现在可以在每个图中看到的斜率反映了原始多重回归模型的部分回归系数。

增加的变量图的很多值都来自回归诊断阶段,尤其是因为增加的变量图中的残差正好是原始多重回归的残差。这意味着可以通过与查看简单回归模型而非多元回归模型的图相似的方式来识别异常值和异方差。还可以看到影响点-这在多重回归中很有用,因为在考虑其他变量之前,某些影响点在原始数据中并不明显。在我的示例中,中等大的X2值在数据表中可能看起来并不不合适,但是如果X3值也很大,尽管X2X3 2值异常大,并且在添加的变量图上会更加突出。呈负相关,则这种组合很少见。“考虑其他预测因素”,即X2

从技术上讲,它们是其他两个多元回归的残差:对除 X 2以外的所有预测变量进行Y回归得到的残差在纵轴上,而对其他所有预测变量进行回归 X 2进行残差的则在横轴上。这就是“ Y给别人”和“ X 2给别人”的传说在告诉你的。由于这两个回归的平均残差均为零,因此( X 2X2X2YX2X2给出其他,Y给定其他值)将为(0,0),这说明了为什么添加的变量图中的回归线始终穿过原点。但是我经常发现提到轴只是其他回归的残差使人们感到困惑(也许不足为奇,因为我们现在正在谈论四种不同的回归!),所以我尝试不去赘述。将它们理解为“ X2给其他人”和“ Y给其他人”,您应该会很好。


不知道如何问这个问题,但是关于情节中看到的趋势,真的有什么可以说的吗?例如,每个趋势的拟合优度是否与每个预测变量的独立程度有关?
naught101 '16

3
是否存在将水平轴和垂直轴上的残差单位转换为基础变量单位的方法?
Nicholas G

这是一个很好的答案。但是,您的第一段中有错别字(预测变量)吗?它们应该是X2和X3吗?
确实是

@detly谢谢,改变了!
银鱼

银鱼,你知道@NicholasG问题的答案吗?有什么方法可以使残差以X变量的单位进行解释吗?
Parseltongue

-1

关于情节中看到的趋势,真的有什么可以说的吗?

当然,它们的斜率是原始模型的回归系数(部分回归系数,所有其他预测变量保持不变)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.