解释残差与拟合值的关系图,以验证线性模型的假设


34

考虑下Faraway的带有R的线性模型的图形(2005年,第59页)。

在此处输入图片说明

第一个图似乎表明残差和拟合值不相关,因为它们应该在具有正态分布误差的均线线性模型中。因此,第二和第三幅图似乎表明了残差和拟合值之间的相关性,提出了不同的模型。

但是,正如Faraway所述,为什么第二个图建议一个异方差线性模型,而第三个图建议一个非线性模型呢?

第二个图似乎表明残差的绝对值与拟合值强烈正相关,而在第三个图中没有明显的趋势。因此,从理论上讲,如果存在具有正态分布误差的异方差线性模型,

肺心病Ëÿ^=[1个1个1个1个]

(其中左侧的表达式是残差和拟合值之间的方差-协方差矩阵),这可以解释为什么第二和第三曲线与Faraway的解释一致。

但是是这样吗?如果不是,那么法拉威对第二和第三情节的解释又如何呢?另外,为什么第三幅图必然表示非线性?它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?


3
这三个图均未显示相关性(至少没有线性相关性,这是“相关性”的相关含义,即“ 残差和拟合值不相关 ” 的含义)。
Glen_b-恢复莫妮卡

1
@Glen_b:谢谢。我已通过将“依赖性”替换为“相关性”来更正您所指的段落。
埃文·阿德

Answers:


46

以下是这些残差图,其中每个拟合值(并因此)的近似平均值和点的散布度(极限值包括大多数值),标记为-,近似表示条件均值(红色)和条件均值(大约!)两倍于条件标准偏差(紫色):x±

在每个拟合值处均具有近似均值并分布的诊断图

  • 第二个图显示平均残差不随拟合值变化(因此也不随改变),但是残差的分布(因此沿拟合线的分布)随着拟合值(或)发生变化。即,价差不是恒定的。异方差。xyx

  • 第三幅图显示,当拟合值较小时,残差大部分为负;当拟合值处于中间时,残差大部分为正;而当拟合值较大时,残差为负。也就是说,传播近似恒定,但条件均值不是-拟合线不能描述随着变化而表现的方式,因为该关系是弯曲的。ÿx

它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?

并非真的*,在这些情况下,图看起来与第三图不同。

(i)如果误差是正常的,但不是以零为中心,而是以为中心,则截距将获取平均误差,因此估计的截距将为的估计值(即期望值,但估计有误)。因此,您的残差仍将具有条件均值为零,因此该图看起来像上面的第一个图。θβ0+θ

(ii)例如,如果误差不是正态分布的,则点的图案可能是除中心线以外最密集的点(如果数据偏斜),但是局部均值残差仍将接近0。

非正常错误

此处的紫色线仍然代表(非常)大约95%的间隔,但不再对称。(为了避免混淆这里的基本要点,我在讨论几个问题)。

*不一定是不可能的 -如果您有一个“错误”术语,它的行为并不像错误一样-说出和以正确的方式与它们相关联-您可能能够产生类似这样的模式。但是,我们对误差项进行假设,例如,它与不相关,并且均值为零;为此,我们必须至少打破某些假设。(在许多情况下,您可能有理由得出结论,认为这种影响应该不存在或至少相对较小。)xyx


1
让我看看我是否正确理解。同质性是否意味着误差的扩展不依赖于x(并且也不依赖于,因为是的函数)?y^y^x
伊万·阿德

2
x1x2x1

1
x

σ2IN(0,V)Vσ2IV
Evan Aad13年

1
(ctd)...您应该能够从我的回答下的第一条评论中看到,特别是由于句子开头为“您可以想象...”,但它几乎排除了与均值。
Glen_b-恢复莫妮卡

2

你写了

第二个图似乎表明残差的绝对值与拟合值强烈正相关,

它没有“似乎”,但确实如此。这就是异方差的含义。

然后,您给出一个全1的矩阵,这是无关紧要的。相关可以存在并且小于1。

然后你写

另外,为什么第三幅图必然表示非线性?它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?

它们确实以0为中心。一半左右位于0以下,一半位于上方。很难确定它们是否从该图中正态分布,但是通常推荐的另一个图是残差的分位数正态图,这将显示它们是否为正态。


N(0,V)Vσ2I

1
分位数法线图仅查看正态性。第一个情节中的同方性证据是直观的
彼得·弗洛姆-恢复莫妮卡

@PeterFlom:很抱歉,在死角上:我对量化问题有些困惑,在量化过程中我们考虑了每个点(xi,yi)上的误差:我们是否考虑了几个响应(xi,y1_1),(xi,yi_2),... ,(xi,yi_m)为输入xi; i = 1,2,...,n(数据点数),然后求出值yi_j的均值和方差。我只是对为什么在线性回归中y = ax + b,x,y,a(或多线性y + a1x1 + a2x2 + ... anxn然后ai,xi)感到困惑的是随机变量而不是固定值。另外,我们是否对每对预测变量和每对(y,x_i)进行分析,而y为独立值?
加里

我不明白你对什么感到困惑。每个观察值都有y的预测值和y的实际值。残差是它们之间的差。
彼得·弗洛姆-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.