在简单线性回归中,残差方差的公式从何而来?


21

根据我正在使用的文本,第残差的方差公式为:ith

σ2(11n(xix¯)2Sxx)

我发现这难以置信,因为第残差是第观测值与第拟合值之间的差。如果要计算差异的方差,那么至少我会期望结果表达式中有些“加”。任何理解推导的帮助将不胜感激。ithithith


文本中的某些“ ”符号是否可能被错误地渲染(或误读)为“ ”符号?+
ub

我曾以为这样,但是在文本中却发生了两次(2个不同的章节),所以我认为这不太可能。当然,公式的推导会有所帮助!:)
Eric

负数是观察值与其拟合值之间正相关的结果,从而减小了差异。
Glen_b-恢复莫妮卡2014年

@Glen感谢您解释为什么事实证明该公式以及下面的矩阵推导是有意义的。
埃里克

Answers:


27

关于“加号”的直觉与方差有关(即使我们计算独立随机变量差的方差,我们也要加上它们的方差)是正确的,但致命的是不完整的:如果所涉及的随机变量不是独立的,则还涉及协方差-并且协方差可能为负。存在一个表达式,几乎就像问题中的表达式被OP(和我)认为是“应该”那样,并且它是预测误差的方差,表示为,其中:Ŷ 0 = β 0 + β 1 X 0 + Ü 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

预测误差的方差与估计误差的方差(即残差)之间的关键差异在于,由于在构造时使用值y 0,因此预测观测值的误差项与估计量不相关。估算器并计算估算值,即样本外值。y0

两者的代数以完全相同的方式进行到一个点(使用0而不是i),但随后发散。特别:0i

在简单的线性回归瓦尔Ù = σ 2,的估计方差β = β 0β 1 '仍然yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

我们有

XX=[nxixixi2]

所以

XX-1个=[X一世2-X一世-X一世ñ][ñX一世2-X一世2]-1个

我们有

[nxi2(xi)2]=[nxi2n2x¯2]=n[xi2nx¯2]=n(xi2x¯2)nSxX

所以

XX-1个=[1个/ñX一世2-X¯-X¯1个]1个/小号XX

意思就是

Varβ^0=σ21个ñX一世2 1个/小号XX=σ2ñ小号XX+ñX¯2小号XX=σ21个ñ+X¯2小号XX

Varβ^1个=σ21个/小号XX

冠状病毒β^0β^1个=-σ2X¯/小号XX

个残差定义为一世

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

实际系数被视为常数,回归量是固定的(或条件在其上),并且具有零协方差与误差项,估计与误差项相关,因为估计含有因变量,以及因变量包含错误项。所以我们有

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

打包一点以获得

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

在大括号中的项具有完全相同的结构与预测误差的变化,唯一的变化是,与其,我们将有X 0(和方差将是该Ë 0,而不是ü)。最后协方差项为预测误差为零,因为ÿ 0,因此Ü 0包括在所述估计的,但不是零的估计误差,因为ÿ 因此Ü 是样品的一部分,并且因此被包括在估算器。我们有xix0e0u^iy0u0yiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

从如何最后一个换人β 0计算。继续,β^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

将其插入残差方差的表达式中,我们得到

Var(u^i)=σ2(11n(xix¯)2Sxx)

因此,不妨讨论一下OP正在使用的文本。

(我已经跳过了一些代数运算,难怪这几天OLS代数的学习越来越少了……)

一些直觉

因此看来,预测时对我们有用(方差较大),估计时对我们有用(方差较小)。这是一个很好的起点,可以用来思考为什么出色的拟合度可能对模型的预测能力不利(尽管这听起来有点违反直觉)。
我们正在估算回归变量的期望值,这一事实将方差减小。为什么?因为通过估算,我们对样本中存在的某些误差变化 “视而不见” ,因为我们本质上是估算期望值。而且,更大1/n回归变量的观测值与回归变量样本均值之间的偏差,与该观测值相关的残差方差越小 ……观测值越偏离,其残差越小……这是回归变量的变异性通过“取代”未知的错误可变性为我们工作。

但这对估计是有好处的。对于预测,同样的事情也不利于我们:现在,通过不考虑的可变性(尽管有欠完善)(因为我们要进行预测),我们从样本中获得的不完美估计量显示出它们的弱点:我们估计了样本意思是,我们不知道真正的期望值-方差会增加。我们有一个X 0是远离从其他观察-too不好计算样本均值,我们的预测误差方差得到另一个提振,因为预测ÿ 0y0x0 y^0将会趋于误入歧途...用更科学的语言“从减少预测误差方差的意义上讲,最佳预测变量代表着预测变量均值缩小 ”。我们不尝试复制因变量的可变性-我们只是尝试保持“接近平均值”。


Thank you for a very clear answer! I'm glad that my "intuition" was correct.
Eric

Alecos, I really don't think this is right.
Glen_b -Reinstate Monica

@Alecos the mistake is in taking the parameter estimates to be uncorrelated with the error term. This part: Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1) isn't right.
Glen_b -Reinstate Monica

@Eric I apologize for misleading you earlier. I have tried to provide some intuition for both formulas.
Alecos Papadopoulos

+1 You can see why I did the multiple regression case for this... thanks for going to the extra effort of doing the simple-regression case.
Glen_b -Reinstate Monica

19

Sorry for the somewhat terse answer, perhaps overly-abstract and lacking a desirable amount of intuitive exposition, but I'll try to come back and add a few more details later. At least it's short.

Given H=X(XTX)1XT,

Varÿ-ÿ^=Var一世-Hÿ=一世-HVarÿ一世-HŤ=σ2一世-H2=σ2一世-H

因此

Varÿ一世-ÿ^一世=σ21个-H一世一世

在简单的线性回归的情况下...这给出了问题的答案。

这个答案也很有意义: ÿ^一世 与...成正相关 ÿ一世,则差异的方差应小于方差之和。

-

编辑:为什么的解释 一世-H幂等的

(一世) H 是幂等的:

H2=XXŤX-1个XŤXXŤX-1个XŤ =X [XŤX-1个XŤX] XŤX-1个XŤ=XXŤX-1个XŤ=H

(ii) 一世-H2=一世2-一世H-H一世+H2=一世-2H+H=一世-H


1
这是其简单性的一个很好的推导,尽管我不清楚一个步骤是为什么 一世-H2=一世-H。也许当您打算扩大答案时,无论如何,您可能会对此说些什么?
Jake Westfall 2014年

@Jake在末尾添加了几行
Glen_b-恢复莫妮卡2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.