要计算具有未知总体标准偏差(sd)的均值的置信区间(CI),我们采用t分布估算总体标准差。值得注意的是,其中。但是因为我们没有总体标准偏差的点估计,所以我们通过近似进行估计,其中
相反,对于人口比例,要计算CI,我们近似为其中提供和
我的问题是,为什么我们对人口比例的标准分布感到自满?
要计算具有未知总体标准偏差(sd)的均值的置信区间(CI),我们采用t分布估算总体标准差。值得注意的是,其中。但是因为我们没有总体标准偏差的点估计,所以我们通过近似进行估计,其中
相反,对于人口比例,要计算CI,我们近似为其中提供和
我的问题是,为什么我们对人口比例的标准分布感到自满?
Answers:
标准正态分布和学生t分布都不太近似于
对于小如此之差,以至于误差使这两个分布之间的差异相形见.。
以下是所有三个分布(省略其中箱子的比较p或1 - p是零,其中,所述比率是未定义),用于Ñ = 10 ,p = 1 / 2 :
的“经验”分布是,因为估计必须是离散的p被限制在有限集合{ 0 ,1 / Ñ ,2 / Ñ ,... ,ñ / Ñ } 。
该分发用来做近似的工作做得更好。
对于和可以看到标准正常和学生t分布之间的差异完全是可以忽略不计:
因为Student t分布比标准正态分布更复杂(实际上,它是由“自由度”索引的整个分布族,以前需要表格的整个章节而不是单个页面),所以几乎所有的标准正态分布近似值。
用于使用置信区间t分布为平均的理由依赖于底层数据遵循正态分布,这导致卡方分布估计的标准偏差时,以及假设从而。在假设数据完全正常的情况下得出的结果是精确的,当使用时得出置信区间的准确度为95%,如果使用则小于95%。
在瓦尔德区间比例的情况下,你只能得到渐近正p - p当n是足够大的,它依赖于第 由于成功的基础计数是离散的,因此该过程的实际覆盖概率有时会低于,有时甚至会高于95%的标称覆盖率,具体取决于未知。因此,没有理论上的理由使用,并且不能保证从实际的角度来看,仅使用来使间隔更宽实际上将有助于实现95%的名义覆盖率。
尽管可以很容易地模拟覆盖率,但是可以准确计算覆盖率。以下示例显示了n = 35时的模拟覆盖率。它表明使用z区间的覆盖率通常略小于.95,而t区间的覆盖率通常通常平均更接近.95,这取决于您先前对p的合理值的看法。 。
AdamO和jsk都给出了很好的答案。
我会尝试用简单的英语重复他们的观点:
当基础分布为正态分布时,您将知道有两个参数:mean和variance。T分布提供了一种在不知道方差的确切值的情况下进行均值推断的方法。代替使用实际方差,仅需要样本均值和样本方差。因为它是精确的分布,所以您确切地知道所得到的。换句话说,覆盖率是正确的。t的使用仅反映了绕过未知的人口方差的愿望。
但是,当我们推断比例时,基本分布是二项式的。要获得准确的分布,您需要查看Clopper-Pearson置信区间。您提供的公式是Wald置信区间的公式。它使用正态分布来近似二项式分布,因为正态分布是二项式分布的极限分布。在这种情况下,由于您仅是近似值,因此使用t统计量获得的额外精度水平变得不必要,而所有这些都取决于经验性能。正如BruceET的回答所建议的那样,如今的Agresti-Coull是简单的标准公式,可用于这种近似。
我的德克萨斯A&M教授Longnecker博士做了一个简单的模拟,以说明与基于二项式的CI相比,不同的近似是如何工作的。
可以在《统计科学》中的二项式比例的区间估计中找到更多信息。L.Brown,T.Cai和A.DasGupta,第16卷,第101-133页。基本上,对于n> = 40,建议使用AC CI。