基础统计课程通常建议在样本大小n大(通常超过30或50)时使用正态分布来估计总体参数的平均值。学生的T分布用于较小的样本量,以说明样本标准偏差的不确定性。当样本量较大时,样本标准偏差可提供有关总体标准偏差的良好信息,从而可以进行正态分布估计。我明白了。
但是,当您可以准确地获得您的置信区间时,为什么要使用估计呢?无论样本大小如何,如果仅使用T分布可以准确估计出正态分布,那么使用正态分布有什么意义呢?
基础统计课程通常建议在样本大小n大(通常超过30或50)时使用正态分布来估计总体参数的平均值。学生的T分布用于较小的样本量,以说明样本标准偏差的不确定性。当样本量较大时,样本标准偏差可提供有关总体标准偏差的良好信息,从而可以进行正态分布估计。我明白了。
但是,当您可以准确地获得您的置信区间时,为什么要使用估计呢?无论样本大小如何,如果仅使用T分布可以准确估计出正态分布,那么使用正态分布有什么意义呢?
Answers:
只是为了澄清与标题的关系,我们不是使用t分布来估计均值(至少在点估计的意义上),而是为其构造一个区间。
但是,当您可以准确地获得您的置信区间时,为什么要使用估计呢?
这是一个很好的问题(只要我们对“完全” 不抱太大的坚持,因为关于它是精确 t分布的假设实际上将不成立)。
“当总体标准偏差(σ)未知且样本量较小(n <30)的工作问题时,必须使用t分布表”
为什么在人口标准偏差未知时(即使n> 30时)人们也不总是使用T分布?
我认为建议最多(可能是)具有误导性。在某些情况下,当自由度要大很多时,仍应使用t分布。
法线的合理近似值取决于各种因素(因此也取决于情况)。但是,由于(对于计算机)仅使用并不困难,即使df非常大,您也不得不问为什么为什么需要担心在n = 30时做不同的事情。
如果样本量确实很大,则不会对置信区间产生明显的影响,但我认为n = 30始终不足以接近“真正大”。
在一种情况下,使用正态而不是可能更有意义-在这种情况下,您的数据显然不满足获取t分布的条件,但是您仍然可以主张均值的近似正态性(如果很大)。但是,在那种情况下,t通常在实践中是一个很好的近似值,并且可能在某种程度上更“安全”。[在这种情况下,我可能倾向于通过仿真进行研究。]
这是历史上的时代错误。统计数据中有很多。
如果您没有计算机,则很难使用t分布,而使用正态分布则容易得多。一旦样本量变大,它们的两个分布就会变得相似(“大”是多大是另一个问题)。