为什么随着样本数量的增加,t分布变得更正常?


19

根据Wikipedia,我了解到,当样本是来自正态分布总体的iid观测值时,t分布就是t值的样本分布。但是,我不直观地理解为什么这会导致t分布的形状从肥尾变为几乎完全正常。

我得到的是,如果您从正态分布中进行采样,那么如果您进行大样本采样,它将类似于该分布,但是我不知道为什么它从它的胖尾形状开始。

Answers:


22

我将尝试给出一个直观的解释。

t统计量*具有分子和分母。例如,一个样本t检验中的统计量为

X¯-μ0s/ñ

*(有几个,但是希望此讨论应该足够笼统以涵盖您所要询问的内容)

在此假设下,分子具有正态分布,均值为0,未知标准偏差为零。

在相同的一组假设下,分母是分子分布的标准偏差(分子统计量的标准误差)的估计值。它独立于分子。其平方是卡方随机变量除以其自由度(也是t分布的df)乘以σ分子

当自由度较小时,分母趋向于相当右偏。它有很大的机会小于其平均值,而有一个相当小的机会。同时,它也有可能比其平均值大得多。

在正态性假设下,分子和分母是独立的。因此,如果我们从该t统计量的分布中随机抽取,则会得到一个正常的随机数除以右偏分布中第二个随机*选择的值,该值的平均值约为1。

*不考虑正常用语

因为它在分母上,所以分母分布中的小值会产生非常大的t值。分母的右偏使t统计量重尾。当位于分母上时,分布的右尾部使t分布比与t具有相同标准偏差的正态峰更尖锐。

但是,随着自由度变大,分布看起来更正常,并且在其均值周围更加“紧密”。

在此处输入图片说明

这样,随着自由度的增加,分母对分子分布形状的影响减小。

最终-正如Slutsky定理所暗示的那样,我们可能会发生-分母的作用变得更像是被常数除,并且t统计量的分布非常接近正态。


以分母的倒数考虑

豪布尔在评论中建议,看一下分母的倒数可能会更有启发。也就是说,我们可以将t统计量写为分子(正常)乘以分母的倒数(右偏)。

例如,我们上面的一样本t统计量将变为:

ñX¯-μ01个/s

现在考虑在原有的总体标准差σ X。我们可以乘以它,如下所示:X一世σX

ñX¯-μ0/σXσX/s

第一项是标准正态。第二项(缩放后的反卡方随机变量的平方根)然后通过大于或小于1的值来缩放标准法线,“将其散布”。

在正常的假设下,产品中的两个术语是独立的。因此,如果我们从该t统计量的分布中随机抽取,我们将得到一个正常的随机数(乘积中的第一项)乘以右偏分布为“通常约为1。

当df较大时,该值趋于非常接近1,但是当df较小时,其偏斜度较大,并且展开较大,此缩放因子的右尾较大会使尾部很胖:

在此处输入图片说明


谢谢!这已经澄清了很多,但是我仍然不确定“它的平方是卡方随机变量除以其自由度(也是t分布的df)乘以[分子的标准偏差] ”。您是否仅仅因为知道这是一件有用的事情而提到了它,还是与我的问题的答案直接相关?我知道您的图中描述的是分母的分布,而不是分母的平方的分布。
user1205901-恢复莫妮卡2014年

2
即使不是 df上卡方的平方根,统计量的分布也会比正态分布重。从这种意义上讲,它不会直接更改答案以将其遗漏。但是至少,它可以解释图中比例尺分布的来源。
Glen_b-恢复莫妮卡2014年

3
我认为,基于样本标准偏差的倒数进行此分析可能会更有启发性。这样,再加上样本SD与样本均值无关的论点(一个需要进一步强调和解释的关键思想,恕我直言),将有助于人们看到将样本均值除以样本SD即可散布正态分布。(当然,这是Gossett发现的全部要点。)
更糟

1
@whuber我添加了一个关于互惠的部分,但也保留了原来的讨论(在我看来,这是更直接的,但我很高兴很多人可能会从互惠中受益匪浅) 。我
还将

1
s/ñσ/ñs/σσ/sσ

8

@Glen_b让您直观地了解为什么随着样本量的增加,t统计量看起来更正常。现在,我将为您提供有关统计信息分布情况的详细技术说明。

ñ-1个ñ

1个+X2ñ-1个-ñ/2ñ-1个ñ-1个21个2

有可能表明

1个ñ-1个ñ-1个21个21个2π

1个+X2ñ-1个-ñ/2经验值-X2/2

ñ。通过取这两个极限的乘积,您可以看到Student-t密度完全收敛到标准法线密度。


2
PDF的融合似乎并没有说太多。例如,您可以混入1个/ñ PDF的分布与 1个+X/ñ2-1个 与每个 Ťñ分布,并且仍然达到相同的限制PDF,但是序列中的所有分布都会变得发胖。像这样的细微行为的可能性使得基于PDF限制的论点变得不那么令人满意。此外,这个问题不是真的询问自由度吗?它想知道为什么序列“以它的肥尾形状开始”。
whuber

2
@whuber答案很简单:有一个 -ñ 在力量,这使尾巴变轻 ñ增加。我们只需要担心手头的情况,而不用担心其他可能发生奇怪事情的假设情况。
克鲁格2014年

2

我只是想分享一些有助于初学者的直觉的东西(尽管它比其他答案没有那么严格)。

如果 žž1个žñ 是标准的正常RV,然后是以下RV,

žž1个2++žñ2ñ

与t分布 ñ 自由程度。

ñ 变得很大,使用大数定律,我们可以看到分母变为 1个。所以你只剩下ž 这是标准正态,这就是为什么t分布看起来像正态 ñ 变大。

详细说明...请注意 Ë[ž2]=1个表示卡方RV的期望值为1。平方根中的分数只是的样本均值ñ 艾德 ž一世2房车。样本平均值为ñ 变得超大将等于其中之一的期望值 ž一世2是的。

这样 ñ 变得很大,您只剩下 ž1个=ž

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.