贝努利抽样的置信区间


42

我有一个伯努利随机变量的随机样本,其中是iidrv,,而是未知参数。X1...XNXiP(Xi=1)=pp

显然,一个可以找到的估计:。pp^:=(X1++XN)/N

我的问题是如何建立的置信区间?p


2
维基百科详细介绍了如何计算贝努利采样的置信区间

Answers:


52
  • 如果平均值不接近或,并且样本大小足够大(即和,则置信度间隔可以通过正态分布来估计,并由此构造置信区间: 10ÑÑ p >5Ñ1 - p>5p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • 如果 且,则置信区间约为(Javanovic and Levy,1997);则相反。该参考文献还讨论了使用和(后面结合了先验信息)的用法。Ñ>3095[03p^=0n>3095%[0,3n] ñ+1Ñ+bp^=1n+1n+b

  • 其他 Wikipedia提供了很好的概述,并指向Agresti和Couli(1998)和Ross(2003),了解除正态近似值,Wilson得分,Clopper-Pearson或Agresti-Coull间隔以外的其他估计使用方法。当不满足上述有关和假设时,这些方法可能会更准确。pnp^

[R提供的功能binconf {Hmisc}binom.confint {binom}其可通过以下方式被使用:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

阿格里斯蒂,艾伦;库尔,布伦特A.(1998)。“对于二项式比例的区间估计,近似值比'精确'值好”。美国统计学家52:119-126。

约万诺维奇(Jovanovic),BD和PS列维(PS Levy),1997年。《看三规则》。美国统计学家卷。51,第2号,第137-139页

罗斯,TD(2003)。“用于二项式比例和泊松速率估计的准确置信区间”。生物与医学计算机33:509-531。


3
(+1)个好答案。我认为这将成为将来类似问题的参考。但是,交叉发布并不常见;实际上,我认为它并不满意,因为它搞砸了反馈/引用/线程/注释系统的许多方面。请考虑删除其中一份副本,并用评论中的链接替换。
whuber

@whuber感谢您的反馈。我已经删除了其他副本。
David LeBauer 2011年

在第一个公式中,z1和alpha是什么?
Cirdec

我找到了自己的问题的答案:是标准正态分布的百分位数,而是错误百分位数。en.wikipedia.org/wiki/Binomial_proportion_confidence_intervalz1α/21α/2α
Cirdec

在第二个要点的置信区间上应该是吗?3/n
Juan A. Navarro 2013年

7

最大似然置信区间

对伯努利样本的正态近似依赖于样本大小相对较大且样本比例远离尾巴。最大似然估计值集中在对数转换的几率上,这为应该使用的提供了非对称有效间隔。p

将对数几率定义为β^0=log(p^/(1p^))

1- CI 由下式给出:αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

并使用以下公式将其重新转换为的(非对称)间隔:p

CI(p)α=1/(1+exp(CI(β0)α)

此CI具有额外的好处,即比例位于0或1之间的间隔内,并且CI始终比正常间隔窄,同时具有正确的水平。您可以通过指定以下内容在R中非常容易地获得它:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

确切的二项式置信区间

在小样本中,MLE的正态近似值比样本比例的正态近似值更好,但可能并不可靠。没关系。可以遵循二项式密度。界限可以从该分布中分别获得2.5%和97.5%的百分位数。Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

很少有可能通过使用计算方法获得的精确二项式置信区间。p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

中值无偏置信区间

并且,如果恰好是0或1,则可以使用中值无偏估计量基于中值无偏概率函数获得非奇异区间估计。您可以将全0情况的下限当作0 WLOG。上限是满足的任何比例:pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

这也是一个计算例程。

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

后两种方法epitools在R 的程序包中实现。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.