残差与潜在的干扰有何关系?


9

在最小二乘法中,我们要估计模型中的未知参数:

Yj=α+βxj+εj(j=1...n)

一旦完成(对于某些观测值),我们将获得拟合的回归线:

Yj=α^+β^x+ej(j=1,...n)

现在显然我们想检查一些图以确保满足假设。假设您要检查均方差,但是,实际上我们正在检查残差。假设您检查了残差与预测值的关系图,如果这表明我们看到了明显的异方差性,那么这与干扰项什么关系?残差中的异方差是否表示扰动方面的异方差? ejεj

Answers:


3

最简单的思考方法是原始残差(ej=yjy^j)是相应干扰的估计值(ε^j=ej)。但是,还有一些额外的复杂性。例如,尽管我们在标准OLS模型中假设误差/干扰是独立的,但残差不可能全部都是。一般而言,只有Np1 残差可以是独立的,因为您已经使用过 p1 估计均值模型的自由度和残差被限制为 0。另外,原始残差的标准偏差实际上不是恒定的。一般而言,拟合回归线的目的是使回归线的平均水平更接近杠杆率更高的那些点。结果,这些点的残差的标准偏差小于低杠杆点的残差的标准偏差。(有关此内容的更多信息,可能有助于在这里阅读以下答案:解释plot.lm()和/或此处:如何在线性回归中对二进制/二分法独立预测变量执行残差分析?


3
要澄清的是,最多Np-1个残差可以是独立的,但通常它们都是相关的。相反,它们具有线性变换,可以具有Np-1个独立分量。
Glen_b-恢复莫妮卡2014年

@Glen_b,好点。
gung-恢复莫妮卡

8

之间的关系 ε^ε 是:

ε^=一世-Hε

哪里 H,帽子矩阵是 XXŤX-1个XŤ

就是说 ε^一世 是所有误差的线性组合,但通常大多数权重都落在了 一世-第一个。

这是一个使用carsR中的数据集的示例。考虑以紫色标记的点:

在此处输入图片说明

让我们称之为重点 一世。残留物ε^一世0.98ε一世+Ĵ一世wĴεĴ,其中 wĴ 其他错误在-0.02范围内:

在此处输入图片说明

我们可以将其重写为:

ε^一世0.98ε一世+η一世

或更一般地

ε^一世=1个-H一世一世ε一世+η一世

哪里 H一世一世 是个 一世的第对角元素 H。同样,wĴ以上是 H一世Ĵ

如果错误是错误的 ñ0σ2 那么在此示例中,这些其他误差的加权和将具有一个标准偏差,大约对应于误差的1/7。 一世对其残渣进行观察。

也就是说,在行为良好的回归中,残差通常可以被视为对误差项无法观察到的中等噪声估计。当我们考虑离中心点较远的点时,情况会变得不太理想(残差对误差的加权较小,而其他误差的权重则变得较小)。

有很多参数,或者有 X的分布不太理想,残差可能不像错误那么大。您可能想尝试一些示例。


2
这是正确的方法。它还需要一个论点,即H通常是“小”。通过显示跟踪等于自变量(包括截距,如果有)的数量就可以做到这一点-这是事实,它是一个投影矩阵。请注意,此结果独立于个人的任何分布假设ε一世:它们不必是Normal。另外,也独立于任何实际的公式H; 这是尺寸的结果。
ub

如果观察次数众多,那么残差可能不会像错误那样少的另一种情况 ñ是小?通常就像@whuber指出的事实H 等于自变量的数量意味着它的对角元素很小,但是如果数量相等则不一定如此 ñ这些元素本身很小。
亚当·贝利

@AdamBailey确保发生在 ñ 很小...但是那是因为 p/ñ 即使比较大 p只有1或2。
Glen_b -Reinstate莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.