何时在线性回归中使用学生分布或正态分布?


10

我正在查看一些问题,在某些情况下,为了测试系数,有时我看到人们使用学生的分布,而有时又看到正态分布。规则是什么?


3
这不是答案,但是请注意,随着自由度参数增大,分布接近正态分布。在,没有明显的区别,尤其是在大多数假设检验框架中。如果和则,则限制行为是“从上方”。是随机较大的比。ν ν 30 Ť ν ž Ñ0 1 | T | | Z |tνν30TtνZN(0,1)|T||Z|
主教

Answers:


15

正态分布是许多有意义的统计问题中的大样本分布,这些问题涉及某种形式的中央极限定理:您有(大约)条独立的信息要累加起来才能得出答案。如果参数估计值渐近正常,则其功能也将渐近正常(在常规情况下)。

另一方面,学生分布是在更严格的条件下,即正态回归误差导出的。如果您可以购买此假设,则可以购买用于检验线性回归假设的分布。与使用正态分布相比,使用此分布可提供更大的置信区间。其实质含义是,在小样本中,您需要估计不确定性的量度,回归均方误差或残差的标准偏差。(在大样本中,您大概知道了一样多的信息,因此分布会退化为正态分布。)σ ttσt

在线性回归中,即使使用有限样本,在某些情况下也无法证明学生分布合理。它们与违反回归误差的二阶条件有关;即,它们是(1)恒定方差,和(2)是独立的。如果违反了这些假设,并且您使用Eicker / White估计器校正了异方差但独立的残差,则可以纠正标准误差;或Newey-West估计器的序列相关误差或聚类标准误差对于与群集相关的数据,您无法为学生分配拉出合理的理由。但是,通过采用适当版本的渐近正态性自变量(四边形数组等),您可以证明正态近似的合理性(尽管您应该记住,您的置信区间很可能太窄了)。


1
(+1)我喜欢第三段开头的含义,即线性回归是通过无限(非“有限”)样本完成的!
ub

@whuber::)在我的书中,如果正常,则必须依靠CLT或渐近式。否则,它与意义一样大。
StasK,2011年

6

我喜欢将学生t分布表示为正态分布和gamma分布的混合物:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

注意,伽马分布的平均值为并且该分布的方差为。因此,我们可以将t分布视为将常方差假设推广为“相似”方差假设。 基本上控制我们允许差异的相似程度。您也将其视为“随机加权”回归,因为我们可以将上述积分用作“隐藏变量”表示形式,如下所示:E[ρ|ν]=1V[ρ|ν]=2νν

yi=μi+eiρi

其中和所有变量都是独立的。实际上,这基本上只是t分布的定义,如eiN(0,σ2)ρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

您可以看到为什么此结果使学生t分布与正常值相比“更稳健”,因为较大的误差可能由于较大的值或较小的值而发生。现在,因为对所有观察都是通用的,但是专门针对第i个,因此得出的一般“常识”是,离群值为小提供了证据。此外,如果要进行线性回归,则假定已知,您将发现是第i个观察值的权重:yiμiσ2ρiσ2ρiρiμi=xiTβρiρi

β^=(iρixixiT)1(iρixiyi)

因此,异常值构成了小的证据,这意味着第i个观测值的权重较小。另外,一个小的“异常值”(一个比其他预测值更好/更适合的观测值)构成了大证据。因此,将在回归分析中赋予此观察更多的权重。这与对异常值或良好数据点的直观判断是一致的。ρ ρiρi

请注意,没有确定这些事情的“规则”,尽管我和其他人对此问题的回答可能对找到您可以沿有限方差路径进行的某些测试有用(学生t是自由度小于或等于的无限方差)到两个)。


+1:这看起来不错,但是我不认为您应该说正态分布和伽玛分布的混合,而应该说是正伽玛-正态复合分布,并通过说正伽玛分布是正态分布之前的共轭(由均值和精度参数化)。
尼尔·G

是的,关于混合的观点很重要-尽管我现在无法想到一种非笨拙的方式来纠正它。请注意,这种形式不是共轭分布所独有的-例如,如果将gamma pdf替换为倒数指数pdf,则会得到拉普拉斯分布。这会导致“最小绝对偏差”,而不是最小二乘,这是使正态分布稳定的一种形式。其他分布会导致其他“强化”-尽管在分析上可能不及学生。
概率

如果X是标准的正常随机变量,而U是具有ν自由度的卡方随机变量,则是学生的t(ν)随机变量。在这里X(U/ν)
卡尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.