为什么将T分布用于假设检验线性回归系数?


17

在实践中,通常使用标准的T检验来检验线性回归系数的显着性。计算的机制对我来说很有意义。

为什么可以使用T分布来建模线性回归假设检验中使用的标准检验统计量?我在这里指的是标准测试统计信息:

T0=β^β0SE(β^)

我敢肯定,对这个问题的完整而完整的回答将相当长。因此,当您等待某人解决此问题时,通过查看我在网上找到的一些注释,您可以很好地理解为什么是这种情况: onlinecourses.science.psu.edu/stat501/node/297。特别注意,。t(np)2=F(1,np)
StatsStudent

1
我不能相信这不是重复,然而所有的upvotes(既对问题和答案)...怎么样这个?也许它不是重复的,这意味着在交叉验证已存在近七年的时间里,仍然存在(或直到今天为止)仍未涵盖的超基本主题……哇...
理查德·哈迪·

@RichardHardy Hmm,听起来像是重复的。虽然更为冗长,但问题特别是:“对于β^i,我如何证明β^iβisβ^itnk
Firebug

Answers:


26

要了解为什么我们使用t分布,您需要知道和残差平方和()的基础分布是什么,因为这两者合在一起将为您提供t分布。 - [R小号小号β^RSS

较容易的部分是的分布,这是一种正态分布-要看到此注释, =因此它是的线性函数,其中。结果,它也以正态分布, -如果需要帮助,请告诉我推导的分布。 βXŤX-1XŤýýýÑXβσ2Ñ βÑβσ2XŤX-1 ββ^β^(XTX)1XTYYYN(Xβ,σ2In)β^N(β,σ2(XTX)1)β^

另外,,其中是观察数,是回归中使用的参数数。对此的证明要复杂得多,但也很容易推导(请参见此处的证明,为什么RSS分布卡方乘以np?)。 Ñ pRSSσ2χnp2np

到目前为止,我已经考虑了矩阵/矢量表示法中的所有内容,但为简单起见,让我们使用并使用其正态分布将: β-ββ^i

β^iβiσ(XTX)ii1N(0,1)

此外,根据的卡方分布,我们得出: n - p s 2RSS

(np)s2σ2χnp2

这只是第一个卡方表达式的重新排列,并且独立于。另外,我们定义,这是的无偏估计量。根据定义的定义,正态分布除以独立的卡方(在其自由度上)可得出t分布(有关证明,请参见:正态除以为您提供了t分布-证明),您将得到:小号2 = - [R 小号小号N(0,1) σ2Ñ-ps2=RSSnpσ2tnpχ2(s)/s

β^iβis(XTX)ii1tnp

其中。s(XTX)ii1=SE(β^i)

让我知道是否有意义。


真是个好答案!您能否解释一下为什么吗?
β^iβiσ(XTX)ii1N(0,1)
KingDingeling

4

答案实际上非常简单:您使用t分布是因为它是专门为此目的而设计的。

好的,这里的细微差别是它不是专门为线性回归而设计的。Gosset提出了从总体中抽取的样本分布。例如,绘制一个样本,并计算其均值。样本均值的分布是什么?ˉ X = Σ Ñ = 1 X / Ñ ˉ Xx1,x2,,xnx¯=i=1nxi/nx¯

如果您知道真实的(总体)标准偏差,那么您可以说变量来自标准正态分布。麻烦的是您通常不知道,而只能估算。因此,当您在分母中用替换时,Gosset找出了分布,该分布现在以他的假名“ Student t”命名。ξ = ˉ X - μ σξ=(x¯μ)n/σN(0,1)σσ^σσ^

线性回归的技术性导致了一种情况,我们可以估计系数估计值的标准误差,但是我们不知道真实的,因此此处也采用Student t分布。σ^ββ^σ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.