F统计遵循F分布的证明


20

鉴于这个问题:证明OLS模型中的系数服从具有(nk)自由度的t分布

我很想知道为什么

F=(TSSRSS)/(p1)RSS/(np),

其中是模型参数的数量,是观测值的数量,是总方差,是残差,遵循分布。Ñ Ť 小号小号ř 小号小号˚F p - 1 ñ - ppnTSSRSSFp1,np

我必须承认,我什至没有尝试证明这一点,因为我不知道从哪里开始。


Christoph Hanck和Francis已经给出了很好的答案。如果您仍然难以理解线性回归的f检验证明,请尝试签出teamdable.github.io/techblog/…。我写了一篇关于线性回归ftest证明的博客文章。它用韩语编写,但是可能几乎没有问题,因为它几乎都是数学公式。如果您仍然难以理解线性回归的f检验证明,希望对您有所帮助。
太浩

尽管此链接可以回答问题,但最好在此处包括答案的基本部分,并提供链接以供参考。如果链接的页面发生更改,仅链接的答案可能会失效。- 评分
MKT -恢复莫妮卡

Answers:


19

让我们显示一般情况下的结果,其中您的检验统计量公式是特例。一般情况下,我们需要验证该统计可以是,根据所述表征F分布,被写为独立的比χ2 RVS通过自由度划分。

H0:Rβ=rRr已知的,非随机的和R:k×q具有列满秩q。这代表了与常数项不同的k个回归变量的q线性限制(与OP表示法不同)。因此,在@ user1627466的示例中,p - 1对应于将所有斜率系数设置为零的q = k - 1限制。kp1q=k1

鉴于Var(β^ols)=σ2(XX)1,我们有

R(β^olsβ)N(0,σ2R(XX)1R),
以便(与B1/2={R(XX)1R}1/2是一个“矩阵平方根”的B1={R(XX)1R}1,通过,例如,Cholesky分解)
n:=B1/2σR(β^olsβ)N(0,Iq),
作为
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
,其中第二行使用OLSE的方差。

此,如图中您关联的答案(还参见这里),是独立的

d:=(nk)σ^2σ2χnk2,
其中 σ 2=ý'中号Xý/ñ-ķ是通常的无偏误差方差估计,以中号X=-XX'X-1X'是在X上回归的“剩余制造者矩阵”。σ^2=yMXy/(nk)MX=IX(XX)1XX

所以,作为nn是在法线的二次形式

nnχq2/qd/(nk)=(β^olsβ)R{R(XX)1R}1R(β^olsβ)/qσ^2Fq,nk.
特别是,下H0:Rβ=r,这减少了统计
F=(Rβ^olsr){R(XX)1R}1(Rβ^olsr)/qσ^2Fq,nk.

为了说明,考虑的特殊情况R=Ir=0q=2σ 2 = 1X ' X = 。然后, ˚F = β ' β / 2 = β 2 1 + β 2 2σ^2=1XX=I

F=β^olsβ^ols/2=β^ols,12+β^ols,222,
在OLS的平方欧几里德距离从通过元件的数量标准化原点估计-强调的是,由于β22被平方标准的法线和因此χ21中,˚F分布可以被看作是一个“平均χ2分布。β^ols,22χ12Fχ2

如果您希望进行一点模拟(这当然不是证明!),在该模拟中对null进行测试,则k回归变量都不重要-实际上它们无关紧要,因此我们模拟了null分布。

在此处输入图片说明

我们看到理论密度和蒙特卡洛检验统计量的直方图之间有很好的一致性。

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

要查看问题和答案中测试统计信息的版本确实等效,请注意,空值对应于限制R=[0I]r=0

X=[X1个X2]根据零下的系数被限制为零(在您的情况下,除常数以外的所有数,但要遵循的推导是通用的)进行划分。此外,让 β = β ' 1β ' 2'是适当地分配OLS估计。β^=(β^ols,1,β^ols,2)

然后

Rβ^ols=β^ols,2
R(XX)1RD~,
右下块
XŤX-1个=X1个X1个X1个X2X2X1个X2X2-1个一种Cd
现在,使用对于分区逆结果以获得
d=X2X2-X2X1个X1个X1个-1个X1个X2-1个=X2中号X1个X2-1个
其中中号X1个=一世-X1个X1个X1个-1个X1个

因此,的分子F统计变为(没有由分割q

Fnum=β^ols,2(X2MX1X2)β^ols,2
接着,召回由Frisch-沃-Lovell的定理,我们可以写成 β2 = X ' 2中号X 1 X 2 -
β^ols,2=(X2MX1X2)1X2MX1y
使得
Fnum=yMX1X2(X2MX1X2)1(X2MX1X2)(X2MX1X2)1X2MX1y=yMX1X2(X2MX1X2)1X2MX1y

USSRRSSR

RSSR=yMX1y
yX1H0TSS=i(yiy¯)2

USSR

MX1yonMX1X2

USSR=yMX1MMX1X2MX1y=yMX1(IPMX1X2)MX1y=yMX1yyMX1MX1X2((MX1X2)MX1X2)1(MX1个X2中号X1个ÿ=ÿ中号X1个ÿ-ÿ中号X1个X2X2中号X1个X2-1个X2中号X1个ÿ

从而,

RSSR-苏联=ÿ中号X1个ÿ-ÿ中号X1个ÿ-ÿ中号X1个X2X2中号X1个X2-1个X2中号X1个ÿ=ÿ中号X1个X2X2中号X1个X2-1个X2中号X1个ÿ


谢谢。我不知道这时是否被认为是手持的,但是如何从beta的平方和变成包含平方和的表达式呢?
user1627466

1
@ user1627466,我添加了两个公式的等价形式。
Christoph Hanck

4

@ChristophHanck提供了一个非常全面的答案,在这里,我将在提到的特殊情况下添加一个证明草图。希望对于初学者来说也更容易遵循。

ÿFd1个d2

ÿ=X1个/d1个X2/d2
X1个χd1个2X2χd22FFcESSχp12cRSSχnp2c

y=Xβ+ε,
Xn×pεNn(0,σ2I)H=X(XTX)1XTy^=HyM=IHHMtr(H)=pHX=X

J

TSS=yT(I1nJ)y,RSS=yTMy,ESS=yT(H1nJ)y.
M+(HJ/n)+J/n=IJ/nrank(M)+rank(HJ/n)+rank(J/n)=nHJ/nM(HJ/n)=0

FF

  1. xNn(μ,Σ)ArAΣxTAxχr2(μTAμ/2)χ2rμTAμ/2,也可以在此处找到证明。
  2. xNn(μ,Σ)AΣB=0xTAxxTBx

yNn(Xβ,σ2I)

ESSσ2=(yσ)T(H1nJ)yσχp12((Xβ)T(HJn)Xβ).
β=0ESS/σ2χp12yTMy=εTMεHX=XRSS/σ2χnp2M(HJ/n)=0ESS/σ2RSS/σ2
F=(TSSRSS)/(p1)RSS/(np)=ESSσ2/(p1)RSSσ2/(np)Fp1,np.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.