二项式随机变量的预测区间


14

二项式随机变量的预测间隔的公式(近似或精确)是什么?

假设YBinom(n,p),和我们观察y(从绘制Y)。该n是已知的。

我们的目标是从获得新抽签的95%预测间隔Y

点估计是np^,其中p = ÿp^=yn。对于A置信区间 p是直截了当的,但我不能找到针对预测时间间隔的公式ÿ。如果我们知道p(而不是 p ),那么95%的预测区间只是涉及寻找一个二项式的位数。有什么明显的我可以忽略的吗?p^Ypp^


1
请参阅有哪些非贝叶斯方法可用于预测推理?。在这种情况下,使用枢轴的方法不可用(我不认为),但是您可以使用一种预测可能性。或者当然是贝叶斯方法。
Scortchi-恢复莫妮卡

1
大家好,我想花点时间解决提出的问题。-关于p的信心:我对此不感兴趣。-关于预测是分布的95%:是的,确切地说,预测区间是什么,与上下文无关(在回归中,您必须假设正态误差,因为置信区间依赖于CLT-是的,该例子中预测头数的例子硬币翻转是正确的,这使这个问题很难解决,是我们现在没有“ p”,只是有一个估计
而已

3
@Addison阅读G. Hahn和W. Meeker的书《统计间隔》。他们解释了置信区间,预测区间,公差区间和贝叶斯可信区间之间的差异。95%的预测间隔不包含分布的95%。它会执行最频繁的间隔。如果您重复从B(n,p)采样并每次使用相同的方法为p生成95%的预测间隔,那么95%的预测间隔将包含p的真实值。如果要覆盖95%的分布,请构造一个公差区间。
Michael R. Chernick

公差间隔覆盖分布的百分比。对于90%分布的95%公差区间,您需要重复多次该过程,并使用相同的方法每次生成该区间,然后在大约95%的情况下,至少90%的分布将落入该区间间隔中包含少于5%分布的5%的时间。
Michael R. Chernick

Answers:


24

好的,让我们尝试一下。我将给出两个答案-贝叶斯答案(在我看来是简单自然的)和可能的常问问题之一。

贝叶斯解

我们假设一个测试之前对,I,E。,p Ë 一个α β ,这是因为β-二项式模型是共轭的,这意味着后验分布也是Beta分布与参数α = α + ķ β = β + ñ - ķ,(我使用ķ表示在成功的次数ñ试验中,代替ÿ)。因此,推断被大大简化。现在,如果您对...的可能值有一些先验知识ppBeta(α,β)α^=α+k,β^=β+nkkny,则可以使用它来设置的值 α β,即,事先定义贝塔,否则可能呈现均匀(无信息)之前,用 α = β = 1,或其他无信息先验(参见例如这里)。无论如何,你的后pαβα=β=1

Pr(p|n,k)=Beta(α+k,β+nk)

在贝叶斯推理中,重要的是后验概率,这意味着一旦知道,就可以对模型中的所有其他量进行推理。您想对可观测值进行推论:尤其是在新结果的向量y = y 1y m上,其中m不一定等于n。具体来说,对于每个j = 0 m,假设我们得到k个,我们要计算在接下来的m个试验中恰好有j个成功的概率yy=y1,,ymmnj=0,,mjmk在前试验中成功;后预测质量函数:n

Pr(j|m,y)=Pr(j|m,n,k)=01Pr(j,p|m,n,k)dp=01Pr(j|p,m,n,k)Pr(p|n,k)dp

但是,我们的的二项式模型意味着,在p具有一定值的条件下,m次试验中j次成功的概率不取决于过去的结果:Ypjm

f(j|m,p)=(jm)pj(1p)j

因此,表达式变为

Pr(j|m,n,k)=01(jm)pj(1p)jPr(p|n,k)dp=01(jm)pj(1p)jBeta(α+k,β+nk)dp

该积分的结果是一个众所周知的Beta-Binomial分布:跳过段落,我们得到了可怕的表达式

Pr(j|m,n,k)=m!j!(mj)!Γ(α+β+n)Γ(α+k)Γ(β+nk)Γ(α+k+j)Γ(β+n+mkj)Γ(α+β+n+m)

给定二次损失,我们对点估计当然是该分布的平均值,即j

μ=m(α+k)(α+β+n)

现在,让我们寻找一个预测间隔。由于这是离散分布,因此我们没有的封闭形式表达式,因此。原因是,对于离散分布,取决于分位数的定义方式,分位数函数不是函数还是不连续函数。但是,这不是一个大问题:对于小,你可以写下概率P [R Ĵ = 0 |ñ ķ P [R Ĵ 1 |P - [R Ĵ 1Ĵ Ĵ 2= 0.95[j1,j2]Pr(j1jj2)=0.95mm并从这里找到 Ĵ 1Ĵ 2使得Pr(j=0|m,n,k),Pr(j1|m,n,k),,Pr(jm1|m,n,k)j1,j2

Pr(j1jj2)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.95

当然,您会发现不止一对,因此理想情况下,您会寻找最小的来满足上述要求。注意[j1,j2]

Pr(j=0|m,n,k)=p0,Pr(j1|m,n,k)=p1,,Pr(jm1|m,n,k)=pm1

只是Beta-Binomial分布的CMF(累积质量函数)的值,因此存在一个封闭形式的表达式,但这在广义超几何函数方面非常复杂。我宁愿只安装R包extraDistr并调用pbbinom以计算Beta-Binomial分布的CMF。具体来说,如果您想一次性计算所有概率,则只需编写:p0,,pm1

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

其中alphabeta是Beta先验参数的值,即β(如果在p上使用统一先验,则为1 )。当然,如果R为Beta-Binomial分布提供分位数函数,则一切都会简单得多,但不幸的是,事实并非如此。αβp

贝叶斯解决方案的实际示例

k = 70(因此,我们最初在100个试验中观察到了70次成功)。我们希望在接下来的m = 20次试验中获得成功次数j的点估计和95%的预测间隔。然后n=100k=70jm=20

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

我在上假设一个统一的先验,这取决于您特定应用程序的先验知识,这可能是一个好的先验,也可能不是一个好的先验。从而p

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

显然,的非整数估计没有意义,因此我们可以舍入到最接近的整数(14)。然后,对于预测间隔:j

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

概率是

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

对于相同的尾概率区间,我们希望最小,使得P - [R Ĵ Ĵ 2 |Ñ ķ 0.975和最大Ĵ 1,使得P - [R Ĵ < Ĵ 1 |Ñ ķ = P [R Ĵ Ĵ 1 - 1 |ñ ķj2Pr(jj2|m,n,k)0.975j1。这样,我们将拥有Pr(j<j1|m,n,k)=Pr(jj11|m,n,k)0.025

Pr(j1jj2|m,n,k)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.9750.025=0.95

因此,通过查看上述概率,我们看到j 1 = 9。该贝叶斯预测间隔的概率为0.9778494,大于0.95。我们可以找到较短的时间间隔,使得P - [R Ĵ 1Ĵ Ĵ 2 |Ñ ķ 0.95,但在这种情况下,两个不等式尾概率中的至少一个不被满足。j2=18j1=9Pr(j1jj2|m,n,k)0.95

频频解决方案

我将关注Krishnamoorthy和Peng(2011)的治疗方法。让X Ñ ø Ñ p 被独立地Binominally分布。我们希望有一个1 - 2 α -用于预测的间隔ÿ,基于的观察X。换句话说,我们寻找I = [ L X ; nYBinom(m,p)XBinom(n,p)12αYX使得:I=[L(X;n,m,α),U(X;n,m,α)]

PrX,Y(YI)=PrX,Y(L(X;n,m,α)YU(X;n,m,α)]12α

该“ ”是因为我们正在处理一个离散型随机变量,因此,我们不能期望得到准确的报道的事实......但我们可以寻找具有总是至少标称覆盖的间隔,因此是一个保守的间隔。现在,可以证明给定X + Y = k + j = sX的条件分布是超几何的,样本大小为s,总体中成功的次数为n,总体大小为n + m。因此,条件pmf为12αXX+Y=k+j=ssnn+m

Pr(X=k|X+Y=s,n,n+m)=(nk)(msk)(m+ns)

XX+Y=s

Pr(Xk|s,n,n+m)=H(k;s,n,n+m)=i=0k(ni)(msi)(m+ns)

pk1αL

Pr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

1α

Pr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>α

[L,U]Y12αpnm12α

惯常解决方案的实际示例

αβ

n <- 100
k <- 70
m <- 20

p^=knm

frequentist_point_estimate <- m * k/n #14

UPr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>αU[0,m]

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

U

jvec[which.min(probabilities > 0.025) - 1] # 18

LPr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

[L,U]=[8,18]

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.