为了说明我将不太复杂的回归模型Y=β1+β2X2+β3X3+ϵ其中,预测变量X2和X3可以是相关的。比方说,在斜坡β2和β3均为正,所以我们可以说,(我)Y随着X2的增加,如果X3是保持不变的,因为β2为正; (ii)Y随着X3增大时,如果X2是保持恒定的,因为β3是正的。
请注意,重要的是要通过考虑其他变量保持恒定(“ ceteris paribus”)时发生的情况来解释多个回归系数。假设我刚回归Y针对X2与模型Y=β′1+β′2X2+ϵ′。我的斜率系数估计β′2,其测量在作用Y的在增加一个单位X2 不保持 X 3β 2从多重回归-这还测量上的效果X3恒定的,可以是从我的估计不同是相关的。β2Y的在增加一个单位X2,但它确实保持X3是恒定的。与我的估计问题β′2^是它患有省略可变偏压,如果X2和X3
要理解原因,可以想象X2和X3是负相关的。现在,当我增加X2由一个单位,我知道的平均值Y因为应该增加β2>0。但作为X2的增加,如果我们不抱X3常量,那么X3趋于减少,而且由于β3>0,这将趋于减少的平均值Y。因此,如果我允许3,则X 2单位增加的整体效果会降低也各不相同,因此β ' 2 β 2X2X3β′2<β2。事情变得更糟了更强烈的X2和X3是相关的,并且效果就越大X3通过β3 -在一个非常严重的情况下,我们甚至会发现β′2<0,即使我们知道,其他条件不变,X2对Y有积极影响!
希望您现在可以看到为什么在X 2上绘制Y的图形对于可视化模型中Y和X 2之间的关系是一种糟糕的方法。在我的例子,你的眼睛会被吸引到具有斜率最佳拟合线的^ β ' 2不反映^ β 2从你的回归模型。在最坏的情况下,您的模型可能会预测Y随着X 2的增加而增加(其他变量保持不变),但是图形上的点表明Y随着X 2的增加而减少。X2YX2β′2^β2^YX2YX2
问题在于,在Y对X2的简单图中,其他变量未保持恒定。这是对添加变量图(也称为偏回归图)的好处的关键见解-它使用Frisch-Waugh-Lovell定理“部分淘汰”其他预测变量的影响。绘图上的水平轴和垂直轴可能最容易理解*为“ 考虑其他预测变量后的X2 ”和“ 考虑其他预测变量后的Y ”。一旦考虑了所有其他预测变量,您现在就可以查看Y 和X2 之间的关系。。因此,例如,您现在可以在每个图中看到的斜率反映了原始多重回归模型的部分回归系数。
增加的变量图的很多值都来自回归诊断阶段,尤其是因为增加的变量图中的残差正好是原始多重回归的残差。这意味着可以通过与查看简单回归模型而非多元回归模型的图相似的方式来识别异常值和异方差。还可以看到影响点-这在多重回归中很有用,因为在考虑其他变量之前,某些影响点在原始数据中并不明显。在我的示例中,中等大的X2值在数据表中可能看起来并不不合适,但是如果X3值也很大,尽管X2和X3 2值异常大,并且在添加的变量图上会更加突出。呈负相关,则这种组合很少见。“考虑其他预测因素”,即X2
∗从技术上讲,它们是其他两个多元回归的残差:对除 X 2以外的所有预测变量进行Y回归得到的残差在纵轴上,而对其他所有预测变量进行回归 X 2进行残差的则在横轴上。这就是“ Y给别人”和“ X 2给别人”的传说在告诉你的。由于这两个回归的平均残差均为零,因此( X 2X2X2YX2X2给出其他,Y给定其他值)将为(0,0),这说明了为什么添加的变量图中的回归线始终穿过原点。但是我经常发现提到轴只是其他回归的残差使人们感到困惑(也许不足为奇,因为我们现在正在谈论四种不同的回归!),所以我尝试不去赘述。将它们理解为“ X2给其他人”和“ Y给其他人”,您应该会很好。