Answers:
如果平均值不接近或,并且样本大小足够大(即和,则置信度间隔可以通过正态分布来估计,并由此构造置信区间: 10ÑÑ p >5Ñ(1 - p)>5
如果 且,则置信区间约为(Javanovic and Levy,1997);则相反。该参考文献还讨论了使用和(后面结合了先验信息)的用法。Ñ>3095%[0,3 ñ+1Ñ+b
其他 Wikipedia提供了很好的概述,并指向Agresti和Couli(1998)和Ross(2003),了解除正态近似值,Wilson得分,Clopper-Pearson或Agresti-Coull间隔以外的其他估计使用方法。当不满足上述有关和假设时,这些方法可能会更准确。p
[R提供的功能binconf {Hmisc}
和binom.confint {binom}
其可通过以下方式被使用:
set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')
阿格里斯蒂,艾伦;库尔,布伦特A.(1998)。“对于二项式比例的区间估计,近似值比'精确'值好”。美国统计学家52:119-126。
约万诺维奇(Jovanovic),BD和PS列维(PS Levy),1997年。《看三规则》。美国统计学家卷。51,第2号,第137-139页
对伯努利样本的正态近似依赖于样本大小相对较大且样本比例远离尾巴。最大似然估计值集中在对数转换的几率上,这为应该使用的提供了非对称有效间隔。
将对数几率定义为
1- CI 由下式给出:
并使用以下公式将其重新转换为的(非对称)间隔:
此CI具有额外的好处,即比例位于0或1之间的间隔内,并且CI始终比正常间隔窄,同时具有正确的水平。您可以通过指定以下内容在R中非常容易地获得它:
set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))
2.5 % 97.5 %
0.2795322 0.4670450
在小样本中,MLE的正态近似值比样本比例的正态近似值更好,但可能并不可靠。没关系。可以遵循二项式密度。界限可以从该分布中分别获得2.5%和97.5%的百分位数。
很少有可能通过使用计算方法获得的精确二项式置信区间。
qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47
并且,如果恰好是0或1,则可以使用中值无偏估计量基于中值无偏概率函数获得非奇异区间估计。您可以将全0情况的下限当作0 WLOG。上限是满足的任何比例:
这也是一个计算例程。
set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
0.5*dbinom(0, 100, p) +
pbinom(1, 100, p, lower.tail = F) -
0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)
[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability
后两种方法epitools
在R 的程序包中实现。