为什么我们要使用残差来检验回归误差的假设?


10

假设我们有一个模型Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

回归有许多假设,例如误差ϵi应该以均值为零和恒定方差的正态分布。我被教导要检查使用正常的QQ阴谋测试残差的常态这些假设ei=YiY^i和残差对拟合曲线图,以检查残差与不断变化而改变零附近。

但是,这些测试全部针对残差,而不是误差。

据我所知,误差被定义为每个观察值与其“真实”平均值的偏差。因此,我们可以写ϵi=YiE[Yi]。我们无法观察到这些错误。*

我的问题是:残差在模仿错误方面做得如何?

如果对残差似乎满足假设,是否也就对误差也满意?还有其他(更好)的方法来测试假设吗,例如将模型拟合到测试数据集并从中获取残差?


*此外,这是否不需要正确指定模型?也就是说,响应确实有与预测的关系在该模型中指定的方式等。X1,X2,

如果我们缺少某些预测(比方说,),则期望ë [ ÿ ] = β 0 + β 1 X 1 + β 2 X 2 + + β ķ X ķ将甚至都不是真正的均值,对不正确模型的进一步分析似乎毫无意义。Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

我们如何检查模型是否正确?

Answers:


9

残差是我们对误差项的估计

这个问题的简短答案相对简单:回归模型中的假设是有关误差​​项行为的假设,残差是我们对误差项的估计。 事实上,对观察到的残差行为的检查告诉我们有关误差项的假设是否合理。

为了更详细地理解这一一般推理,它有助于详细检查标准回归模型中残差的行为。在具有独立同方正态误差项的标准多元线性回归下,残差矢量的分布是已知的,这使您可以测试回归模型中的基础分布假设。基本思想是,您可以在回归假设下找出残差矢量的分布,然后检查残差值是否合理地符合此理论分布。与理论残差分布的偏差表明,误差项的基本假定分布在某些方面是错误的。

ϵiIID N(0,σ2)

r=(Ih)ϵN(0,σ2(Ih)),

其中是回归的帽子矩阵。残差矢量模仿误差矢量,但是方差矩阵具有附加的乘法项。为了检验回归假设,我们使用学生化残差,它们具有边际T分布:h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(此公式适用于外部学生化残差,其中方差估计量不包括所考虑的变量。值是杠杆值,是帽子矩阵中的对角线值。学生化残差不是独立的,但是如果大,则它们接近独立的。这意味着边际分布是一个简单的已知分布,但是联合分布却很复杂。)现在,如果极限存在,那么可以证明系数估计量是真实回归系数的一致估计量,而残差是变量的一致估计量真正的错误条款。li=hi,inlimn(xTx)/n=Δ

本质上,这意味着您通过将学生化残差与T分布进行比较来测试错误项的基础分布假设。误差分布的每个基本属性(线性,同方差,不相关误差,正态性)都可以通过使用学习残差分布的类似属性进行测试。如果正确指定了模型,则对于较大的,残差应接近真实误差项,并且它们具有相似的分布形式。n

从回归模型中省略解释变量会导致系数估计量中的变量偏差被忽略,从而影响残差分布。残差矢量的均值和方差均受省略变量的影响。如果回归中省略的项是则残差矢量变为。如果省略的矩阵中的数据向量是IID法线向量,并且与误差项无关,则Zδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) 这样剩余分布变为:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

如果模型中已经存在拦截项(即,如果单位矢量在设计矩阵中),则1(Ih)1=0,这意味着将保留残差的标准分布形式。如果模型中没有拦截项,则省略的变量可能会给出残差的非零均值。或者,如果省略的变量不是IID正态,则可能导致与标准残差分布的其他偏差。在后一种情况下,残差测试不太可能检测到由于遗漏变量而导致的任何结果。通常不可能确定是否由于遗漏变量或仅由于与所包含变量之间的不良关系而导致与理论残差分布的偏差(并且在任何情况下这些都是相同的)。


1
感谢您的全面答复。我能问你在哪里得到吗?在我看来r=(Ih)ϵr=YY^=(Ih)Y
mai

1
由于您拥有因此。hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
本-恢复莫妮卡

-4

通常,术语残差和误差表示同一件事。如果您的模型没有预测变量,则E(Y)的确是Y的平均值。对于预测变量(如模型中的预测),E(Y)是从每个X预测的Y的值。因此,残差是观察到的每个变量之间的差并预测Y。


3
“通常,术语残差和误差表示同一件事。” 我认为这不是真的-据我了解,残差衡量的是观测值与预测值之间的差异,而误差衡量的是观测值与真实均值之间的差异。

1
严格来说,错误和残差不是同义词。前者是随机变量,后者是实现。
理查德·哈迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.