残差是我们对误差项的估计
这个问题的简短答案相对简单:回归模型中的假设是有关误差项行为的假设,残差是我们对误差项的估计。 事实上,对观察到的残差行为的检查告诉我们有关误差项的假设是否合理。
为了更详细地理解这一一般推理,它有助于详细检查标准回归模型中残差的行为。在具有独立同方正态误差项的标准多元线性回归下,残差矢量的分布是已知的,这使您可以测试回归模型中的基础分布假设。基本思想是,您可以在回归假设下找出残差矢量的分布,然后检查残差值是否合理地符合此理论分布。与理论残差分布的偏差表明,误差项的基本假定分布在某些方面是错误的。
ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
其中是回归的帽子矩阵。残差矢量模仿误差矢量,但是方差矩阵具有附加的乘法项。为了检验回归假设,我们使用学生化残差,它们具有边际T分布:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(此公式适用于外部学生化残差,其中方差估计量不包括所考虑的变量。值是杠杆值,是帽子矩阵中的对角线值。学生化残差不是独立的,但是如果大,则它们接近独立的。这意味着边际分布是一个简单的已知分布,但是联合分布却很复杂。)现在,如果极限存在,那么可以证明系数估计量是真实回归系数的一致估计量,而残差是变量的一致估计量真正的错误条款。li=hi,inlimn→∞(xTx)/n=Δ
本质上,这意味着您通过将学生化残差与T分布进行比较来测试错误项的基础分布假设。误差分布的每个基本属性(线性,同方差,不相关误差,正态性)都可以通过使用学习残差分布的类似属性进行测试。如果正确指定了模型,则对于较大的,残差应接近真实误差项,并且它们具有相似的分布形式。n
从回归模型中省略解释变量会导致系数估计量中的变量偏差被忽略,从而影响残差分布。残差矢量的均值和方差均受省略变量的影响。如果回归中省略的项是则残差矢量变为。如果省略的矩阵中的数据向量是IID法线向量,并且与误差项无关,则Zδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) 这样剩余分布变为:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
如果模型中已经存在拦截项(即,如果单位矢量在设计矩阵中),则1(I−h)1=0,这意味着将保留残差的标准分布形式。如果模型中没有拦截项,则省略的变量可能会给出残差的非零均值。或者,如果省略的变量不是IID正态,则可能导致与标准残差分布的其他偏差。在后一种情况下,残差测试不太可能检测到由于遗漏变量而导致的任何结果。通常不可能确定是否由于遗漏变量或仅由于与所包含变量之间的不良关系而导致与理论残差分布的偏差(并且在任何情况下这些都是相同的)。