如果您估计(或类似地)并且样本量相对较小(例如),那么计算二项式实验的置信区间的最佳技术是什么?
scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
如果您估计(或类似地)并且样本量相对较小(例如),那么计算二项式实验的置信区间的最佳技术是什么?
scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
Answers:
有关此问题的文章很多。一般建议不要使用正态逼近(即渐近/瓦尔德置信区间),因为它具有可怕的覆盖范围。R代码说明了这一点:
library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")
对于较小的成功机率,您可能会要求95%的置信区间,但实际上却获得10%的置信区间!
那么我们应该使用什么呢?我认为当前的建议是Brown,Cai和DasGupta在《统计科学 2001》第一卷中的“二项式比例的区间估计”中列出的建议。16号 2,第101-133页。作者研究了几种计算置信区间的方法,并得出以下结论。
对于较小的n,建议使用Wilson区间或等尾Jeffreys先验区间;对于较大的n,建议在Agresti和Coull中建议的区间。
威尔逊(Wilson)间隔有时也称为得分间隔,因为它基于反转得分测试。
要计算这些置信区间,您可以使用此在线计算器或R binom.confint()
中binom
软件包中的函数。例如,如果25次试验中成功0次,则R代码为:
> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
type="central")
method x n mean lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2 bayes 0 25 0.019 0.000 0.073
3 wilson 0 25 0.000 0.000 0.133
这bayes
是杰弗里斯间隔。(type="central"
需要该参数以获取等尾间隔。)
请注意,在计算间隔之前,应确定要使用三种方法中的哪一种。同时查看这三个选项并选择最短的选项,自然会给您带来很小的覆盖概率。
最后要注意的是,如果您在n次试验中观察到恰好为零的成功,并且只想非常快速地近似置信区间,则可以使用3的规则。只需将数字3除以n即可。在上面的示例中,n为25,因此上限为3/25 = 0.12(下限当然为0)。
bayes
当两个形状参数均为1时,使用统一优先级(而不是Jeffrey)。出于对Jeffrey统一优先级的(劣势)的好奇心,我通过电子邮件向Binom软件包的维护者发送电子邮件,他告诉我将使用新版本统一优先级为默认值。因此,请不要怀疑结果将来是否会略有不同。
binconf
方法Hmisc
还计算这些间隔。它默认为Wilson方法。
Agretsi(2007,pp.9-10)显示,当比例下降到接近0或1时,置信区间效果较差。取而代之的是,使用“对偶信度重要性检验... [由的所有值组成的,可以判断为合理的空假设参数”,其中是未知参数。通过求解为此在方程
。通过对两边进行平方
使用二次公式求解,这将得出适当的临界z值。