当样本较大时,为什么不使用T分布来估计均值?


17

基础统计课程通常建议在样本大小n大(通常超过30或50)时使用正态分布来估计总体参数的平均值。学生的T分布用于较小的样本量,以说明样本标准偏差的不确定性。当样本量较大时,样本标准偏差可提供有关总体标准偏差的良好信息,从而可以进行正态分布估计。我明白了。

但是,当您可以准确地获得您的置信区间时,为什么要使用估计呢?无论样本大小如何,如果仅使用T分布可以准确估计出正态分布,那么使用正态分布有什么意义呢?


@Glen_b是的,那将是区间估计量。关于这些时间间隔:“如果在总体标准偏差(σ)未知且样本量较小(n <30)的工作问题中出现工作问题,则必须使用t分布表”(来自web.pdx.edu/~stipakb/下载/PA551/NormalVersusTdistribution.doc)。为什么在人口标准偏差未知时(即使n> 30时)人们也不总是使用T分布?
Pertinax

Answers:


15

只是为了澄清与标题的关系,我们不是使用t分布来估计均值(至少在点估计的意义上),而是为其构造一个区间。

但是,当您可以准确地获得您的置信区间时,为什么要使用估计呢?

这是一个很好的问题(只要我们对“完全” 不抱太大的坚持,因为关于它是精确 t分布的假设实际上将不成立)。

“当总体标准偏差(σ)未知且样本量较小(n <30)的工作问题时,必须使用t分布表”

为什么在人口标准偏差未知时(即使n> 30时)人们也不总是使用T分布?

我认为建议最多(可能是)具有误导性。在某些情况下,当自由度要大很多时,仍应使用t分布。

法线的合理近似值取决于各种因素(因此也取决于情况)。但是,由于(对于计算机)仅使用t并不困难,即使df非常大,您也不得不问为什么为什么需要担心在n = 30时做不同的事情。

如果样本量确实很大,则不会对置信区间产生明显的影响,但我认为n = 30始终不足以接近“真正大”。


在一种情况下,使用正态而不是t可能更有意义-在这种情况下,您的数据显然不满足获取t分布的条件,但是您仍然可以主张均值的近似正态性(如果n很大)。但是,在那种情况下,t通常在实践中是一个很好的近似值,并且可能在某种程度上更“安全”。[在这种情况下,我可能倾向于通过仿真进行研究。]


2
在本文的某处读到,当α = 5 时,是好的。但我不确定是否足够。n=30α=5
斯特凡·洛朗

1
@StéphaneLaurent在大多数情况下,应处以5%的罚款,但是这种判断很大程度上取决于个人。在某些情况下-我今天才遇到一种情况-该级别的错误可能已经足够重要了。
Glen_b-恢复莫妮卡2014年

2
@StéphaneLaurent您可能会从VE的Johnson(2013)中获得一些体面的见识。修订统计证据标准美国国家科学院院刊,110(48):19313–19317。本文适合以下文章- 为什么大多数已发表的研究发现都是对研究的错误批评(la 科学如何出错
Alexis 2014年

4
@StéphaneLaurent您的文章回答了我的问题。作为记录,可以粗略地得出以下结论:“使用正态分布作为学生t分布的近似值,完全是20世纪技术局限性的产物。这些局限性在现代统计软件中已经消失,并且不再存在使用这些非保守近似的任何理由”。
2014年

2
@TheThunderChimp警告:如果已知总体方差(例如,估计总体比例-二分变量的平均值),则标准正态(z),而不是t分布是合适的。
亚历克西斯

7

这是历史上的时代错误。统计数据中有很多。

如果您没有计算机,则很难使用t分布,而使用正态分布则容易得多。一旦样本量变大,它们的两个分布就会变得相似(“大”是多大是另一个问题)。


1
对于更深层次的问题,这似乎是一个很浅的答案。
亚历克西斯

2
不明白你的意思。你不认为那是原因吗?(最受支持的答案也表达了同样的观点-尽管更为雄辩和详尽。)
Jeremy Miles

1
我之所以投票,是因为您的回答像我这样:因为历史。简要概述您的问题。
亚历克西斯

2
感谢您通知我-比我不知道原因的匿名下注更好。
杰里米·迈尔斯

3
历史上,人们通过查找表中的值来“使用”这些分布。使用正态分布会更容易的唯一方法是不必选择与自由度相对应的列。几乎不用担心。什么做了限制使用的是,在某些时候它没有什么意义,扩大表,以大自由度:书将变得太大。
ub

1

ex2n


1
估算t时的数值误差超过了使用它的收益?
2014年

2
当然,您可以将t值计算为任意精度,因此它们可以与您要比较的数量一样精确。
尼尔·G

“换句话说,“精确” t值不是“精确”,并且在近似误差内,该值与标准法线的CDF值相同。” 我不确定这是否是可靠的经验法则。
shadowtalker 2014年

2
这个答案没有重点。例如,在以下位置的累积正态分布和学生t累积分布的值-2 仅当样本大小超过16位有效数字时(即大约为双精度)才变得难以区分 5.9325×1016。这表明数值误差在任何实际问题中都不是问题。
ub

1
韦伯,你是对的。我不正确地使用了“数字错误”。我指的是处理数字的所有误差:积分的数值逼近,有限精度的数值误差以及由于截断而产生的数值误差。如果可以无限精确地工作,就没有理由用正态代替t分布
VictorZurkowski
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.