当使用OLS回归残差的误差时,为什么斜率总是正好为1?


10

我正在使用R中的一些简单模拟试验误差和残差之间的关系。我发现一件事是,无论样本大小或误差方差如何,当您拟合模型时,斜率始终为1

errorsβ0+β1×residuals

这是我正在做的模拟:

n <- 10 
s <- 2.7 

x <- rnorm(n) 
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e

model <- lm(y ~ x) 
r <- model$res 

summary( lm(e ~ r) )

e并且r即使是小样本也具有高度(但不是完美)的相关性,但我不知道为什么会自动发生这种情况。数学或几何解释将是可理解的。


5
在底边为OX的平面三角形OXY中,边YO和XY的高度是三角形本身的高度。按顺序,这些高度由,,和的系数给出lm(y~r),因此它们必须全部相等。后者显然是。尝试所有这三个命令以查看。要使最后一个工作有效,您必须创建的副本,例如。有关回归的几何图的更多信息,请参见stats.stackexchange.com/a/113207lm(e~r)lm(r~r)1Rrs<-r;lm(r~s)
ub

1
谢谢@whuber。您是否想做一个答案,以便我接受,或者将其标记为重复?
GoF_Logistic

1
我不认为这是重复的,所以我将评论扩展为答案。
ub

Answers:


11

胡伯的答案很棒!(+1)我使用我最熟悉的符号解决了这个问题,并认为(不那么有趣,更常规的)推导可能值得在此处包括。

令为回归模型,对于和噪声。然后对列的回归具有正态方程得出估计因此对于,回归具有残差。y=Xβ+ϵXRn×pϵyXXT(yXβ^)=0,

β^=(XTX)1XTy.
r=yXβ^=(IH)y=(IH)ϵ,
H=X(XTX)1XT

在上回归导致由 因为是对称且幂等的,而。ϵr

(rTr)1rTϵ=([(IH)ϵ]T[(IH)ϵ])1[(IH)ϵ]Tϵ=ϵT(IH)TϵϵT(IH)T(IH)ϵ=ϵT(IH)ϵϵT(IH)ϵ=1,
IHϵim(X)

而且,如果协方差是正交的(即从正则方程中正交)(即,那么如果在原始回归中包括截距的情况下对残差进行误差回归时,是否包含截距,则该参数也成立。)。1Tr=0


+1很高兴看到解决方案仔细而清晰地制定出来。
ub

11

在不损失任何概念(或实践)一般性的前提下,首先按照如何“控制其他变量”中所述从变量中删除常数。令为回归变量,为误差,响应,为的最小二乘估计,而残差。所有这些向量都位于同一平面上,从而使我们能够绘制它们的图片。情况可以这样表示,其中指定原点:xeY=βx+ebβr=YbxO

数字

此图构建开头,然后添加误差产生。然后将高度降至最低点,以最小二乘方估计值达到最低点。显然,高度是残差矢量,因此已标记为。ë ý b X ý - b X řβxeYbxYbxr

三角形的底边与回归向量平行。边和的高度是三角形本身的高度。根据定义,残差垂直于基底:因此,可以通过投影到上找到与基底的距离。因此,可以通过以下三种方式中的任何一种找到三角形的高度:使对于回归(确定的高度);使对于回归(确定的高度),或使对于回归(确定的高度)ø ý β X ý - [R [R ý ř ý Ë ř Ë - [R [R [R 1xOY(βx)YrrYrYererrr)。这三个值必须全部相等(您可以通过运行这些回归进行检查)。后者显然是,QED1


对于喜欢代数的人,我们可以将这种几何分析转换为优雅的代数演示。只需简单地观察到,和都是生成的子空间模的全等。因此它们必须具有等于突起到任何空间正交的,如一个通过产生,其中的投影具有系数,QED。(从统计上讲,我们只是简单地“取出” 所有三个表达式中的成分,而在每种情况下都保留。)Ë = - [R + β - b X Ŷ = Ë + β X = - [R + 2 β - b X X X - [R [R 1 X řre=r+(βb)xY=e+βx=r+(2βb)xxxrr1xr

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.