在实践中,通常使用标准的T检验来检验线性回归系数的显着性。计算的机制对我来说很有意义。
为什么可以使用T分布来建模线性回归假设检验中使用的标准检验统计量?我在这里指的是标准测试统计信息:
在实践中,通常使用标准的T检验来检验线性回归系数的显着性。计算的机制对我来说很有意义。
为什么可以使用T分布来建模线性回归假设检验中使用的标准检验统计量?我在这里指的是标准测试统计信息:
Answers:
要了解为什么我们使用t分布,您需要知道和残差平方和()的基础分布是什么,因为这两者合在一起将为您提供t分布。 - [R小号小号
较容易的部分是的分布,这是一种正态分布-要看到此注释, =因此它是的线性函数,其中。结果,它也以正态分布, -如果需要帮助,请告诉我推导的分布。 β(XŤX)-1XŤýýý〜Ñ(Xβ,σ2我Ñ) β〜Ñ(β,σ2(XŤX)-1) β
另外,,其中是观察数,是回归中使用的参数数。对此的证明要复杂得多,但也很容易推导(请参见此处的证明,为什么RSS分布卡方乘以np?)。 Ñ p
到目前为止,我已经考虑了矩阵/矢量表示法中的所有内容,但为简单起见,让我们使用并使用其正态分布将: β我-β我
此外,根据的卡方分布,我们得出: (n - p )s 2
这只是第一个卡方表达式的重新排列,并且独立于。另外,我们定义,这是的无偏估计量。根据定义的定义,正态分布除以独立的卡方(在其自由度上)可得出t分布(有关证明,请参见:正态除以为您提供了t分布-证明),您将得到:小号2 = - [R 小号小号 σ2吨Ñ-p√
其中。
让我知道是否有意义。
答案实际上非常简单:您使用t分布是因为它是专门为此目的而设计的。
好的,这里的细微差别是它不是专门为线性回归而设计的。Gosset提出了从总体中抽取的样本分布。例如,绘制一个样本,并计算其均值。样本均值的分布是什么?ˉ X = Σ Ñ 我= 1 X 我/ Ñ ˉ X
如果您知道真实的(总体)标准偏差,那么您可以说变量来自标准正态分布。麻烦的是您通常不知道,而只能估算。因此,当您在分母中用替换时,Gosset找出了分布,该分布现在以他的假名“ Student t”命名。ξ = (ˉ X - μ )√
线性回归的技术性导致了一种情况,我们可以估计系数估计值的标准误差,但是我们不知道真实的,因此此处也采用Student t分布。