不同概率的概率分布

36

如果我想在16个试验中获得9次成功的概率，而每个试验的概率为0.6，则可以使用二项分布。如果16个试验中的每一个都有不同的成功概率，我该怎么办？

distributions probability binomial

— 格雷格
source

1

@whuber在您对正态近似的解释中，均值和标准差的计算与Wikipedia中的描述不同。在Wiki中，平均值为np，标准偏差为np（1-p）。因此，在这个问题中，对于二项分布成功概率的正态近似，平均值为p1 + p2 + p3 + p4 + p5 + ... + pi，方差为p1（1-p1）+ p2（ 1-p2）+ ... + pi（1-pi）。我对吗？

— 大卫，

1

有关Poisson二项式分布的信息，请参阅Wikipedia 。也是一个搜索词，在这里显示了一些热门。

— 2013年

@David当所有等于一个公共值，则和，显示您所引用的Wikipedia描述只是一个特例。

p_{i}

$p_i$

p

$p$

p_{1} + p_{2} + \dots + p_{n} = n p

$p_1+p_2+\cdots+p_n = np$

p_{1} (1 - p_{1}) + \dots + p_{n} (1 - p_{n}) = n p (1 - p)

$p_1(1-p_1)+\cdots+p_n(1-p_n)=np(1-p)$

— whuber

又见stats.stackexchange.com/questions/160458/...

en.wikipedia.org/wiki/Poisson_binomial_distribution

— 杰西卡（Jessica）

22

这是16个（可能是独立的）二项式试验的总和。独立性的假设使我们可以乘以概率。在两次具有成功概率和的试验之后，两次试验的成功机会均为，不成功的机会为，一次成功的机会为。最后一种表述的有效性归因于这样一种事实，即获得一种成功的两种方式是互斥的：至多一种实际上可以发生。那意味着他们的概率增加了。 $p_1$ $p_2$ $p_1 p_2$ $(1-p_1)(1-p_2)$ $p_1(1-p_2) + (1-p_1)p_2$

通过这两个规则-独立的概率相乘和互斥的相加-您可以得出16个概率为试验的答案。为此，您需要考虑所有获得给定成功次数（例如9）的所有方法。有种方法可以实现9次成功。例如，当试验1、2、4、5、6、11、12、14和15成功时，其中一个失败，就会发生其中之一。成功的概率为和，失败的概率为。将这16个数字相乘即可 $p_1, \ldots, p_{16}$ $\binom{16}{9} = 11440$ $p_1, p_2, p_4, p_5, p_6, p_{11}, p_{12}, p_{14},$ $p_{15}$ $1-p_3, 1-p_7, \ldots, 1-p_{13}, 1-p_{16}$ 结果的特定顺序。 将这个数字与剩余的11439个数字相加得出答案。

当然，您会使用计算机。

对于16个以上的试验，有必要对分布进行近似估计。如果概率和变得太小，则法线近似趋于很好地工作。使用这种方法，您会注意到对试验的总和的期望是并且（因为试验是独立的）方差是。然后，您假设总和的分布为正态，均值和标准差。答案往往适合于计算与成功比例不同的概率 $p_i$ $1-p_i$ $n$ $\mu = p_1 + p_2 + \cdots + p_n$ $\sigma^2 = p_1(1-p_1) + p_2(1-p_2) + \cdots + p_n(1-p_n)$ $\mu$ $\sigma$ $\mu$ 不超过几倍。由于生长过大，这种近似变得更加准确，适用于更大的倍数远离。 $\sigma$ $n$ $\sigma$ $\mu$

— ub
source

9

计算机科学家称这些为“泊松试验”，以区别于伯努利试验。除了中心极限定理逼近外，还可以使用良好的尾边界。这是一个 Google搜索“泊松试验的切尔诺夫界线”会发现您在典型CS疗法中可能会发现的结果。

— 主教

@Cardinal命名法很有趣。这对于很小的是有效的，但否则似乎会引起误解，因为否则该分布不能很好地通过泊松分布近似地估计出来。（关于这个问题，还有关于简历的另一种讨论，其中“ 16”被10,000代替，我们确实检查了尾部概率，但是我一直没有找到它。）

p_{i}

$p_i$

— whuber

1

是的，我同意这个名字。当我第一次遇到它时，我发现它有点奇怪。我在这里给出了更多有用的搜索术语。看来计算机科学家在处理某些算法时经常考虑这些概率。如果您碰巧发现了另一个问题，我会很感兴趣。也许是这个吗？

— 主教

2

@cardinal是正确的，我们“ CS人员”称它们为Poisson试验。实际上，对于这种情况，标准的Chernoff-Hoeffding界限将为您提供OP所要求的界限。

— Suresh Venkatasubramanian

1

根据@David昨天的评论，您对正态近似均值的陈述存在问题。我们求和16个Bernoulli rv，每个rvs都可以取值0或1，因此总和的支持范围是0到16，而不是0到1。值得检查您的sd。

μ = (p_{1} + p_{2} + \dots + p_{n}) / n

$\mu = (p_1 + p_2 + \cdots + p_n)/n$

— Wolfies

12

@whuber正常逼近的一种替代方法是使用“混合”概率或层次模型。当在某种程度上相似时，这将适用，您可以通过概率分布建模，其密度函数为，该密度函数由某个参数索引。您得到一个积分方程： $p_i$ $p_i\sim Dist(\theta)$ $g(p|\theta)$ $\theta$

P r (s = 9 | n = 16, θ) = (\binom{16}{9}) \int_{0}^{1} p^{9} (1 - p)^{7} g (p | θ) d p

$Pr(s=9|n=16,\theta)={16 \choose 9}\int_{0}^{1} p^{9}(1-p)^{7}g(p|\theta)dp$

二项式概率来自设置，法线逼近来自于（我认为）设置（在@whuber答案中定义了和），然后注意“此PDF的尾部在峰顶附近急剧下降。 $g(p|\theta)=\delta(p-\theta)$ $g(p|\theta)=g(p|\mu,\sigma)=\frac{1}{\sigma}\phi\left(\frac{p-\mu}{\sigma}\right)$ $\mu$ $\sigma$

您还可以使用beta分布，这将导致一种简单的分析形式，并且不必遭受正态近似会出现的“小p”问题-因为beta非常灵活。使用分布，其中由以下方程的解设置（这是“最小KL散度”估计）： $beta(\alpha,\beta)$ $\alpha,\beta$

ψ (α) - ψ (α + β) = \frac{1}{n} \sum_{i = 1}^{n} l o g [p_{i}]

$\psi(\alpha)-\psi(\alpha+\beta)=\frac{1}{n}\sum_{i=1}^{n}log[p_{i}]$

ψ (β) - ψ (α + β) = \frac{1}{n} \sum_{i = 1}^{n} l o g [1 - p_{i}]

$\psi(\beta)-\psi(\alpha+\beta)=\frac{1}{n}\sum_{i=1}^{n}log[1-p_{i}]$

其中是digamma函数-与谐波序列密切相关。 $\psi(.)$

我们得到“β-二项式”化合物分布：

(\binom{16}{9}) \frac{1}{B (α, β)} \int_{0}^{1} p^{9 + α - 1} (1 - p)^{7 + β - 1} d p = (\binom{16}{9}) \frac{B (α + 9, β + 7)}{B (α, β)}

${16 \choose 9}\frac{1}{B(\alpha,\beta)}\int_{0}^{1} p^{9+\alpha-1}(1-p)^{7+\beta-1}dp ={16 \choose 9}\frac{B(\alpha+9,\beta+7)}{B(\alpha,\beta)}$

在@whuber指出的情况下，此分布趋于正态分布-但应为小和偏斜的提供合理的答案-但对于多峰不能给出合理的答案，因为beta分布只有一个峰值。但是，您只需为模式使用 beta分布即可轻松解决此问题。您将积分从分解为片段，以使每个片段具有唯一模式（并且有足够的数据来估计参数），并在每个片段中拟合beta分布。然后将结果相加，请注意对进行变量的更改 $n$ $p_i$ $p_i$ $M$ $M$ $0<p<1$ $M$ $p=\frac{x-L}{U-L}$ $L<x<U$ beta积分转换为：

B (α, β) = \int_{L}^{U} \frac{(x - L)^{α - 1} (U - x)^{β - 1}}{(U - L)^{α + β - 1}} d x

$B(\alpha,\beta)=\int_{L}^{U}\frac{(x-L)^{\alpha-1}(U-x)^{\beta-1}}{(U-L)^{\alpha+\beta-1}}dx$

— 概率逻辑
source

+1此答案包含一些有趣且聪明的建议。最后一个看起来特别灵活和强大。

— ub

为了简单而具体，假设（i）和（ii），对于到16。您的和估计，因此根据OP的问题，给定对估计？

p_{i} = \frac{i}{17}

$p_i = \frac{i}{17}$

p_{i} = \sqrt{i} / 17

$p_i = \sqrt{i}/17$

i = 1

$i = 1$

α

$\alpha$

β

$\beta$

P (X = 9)

$P(X=9)$

n = 16

$n= 16$

— Wolfies

很好的答案和建议，尤其是beta版！很高兴看到这个答案以和一般形式写成。

n

$n$

s

$s$

— pglpm

8

让〜的概率生成函数（PGF）： $X_i$ $Bernoulli(p_i)$

pgf = E [t^{X_{i}}] = 1 - p_{i} (1 - t)

$\text{pgf} = E[t^{X_i}] = 1 - p_i (1-t)$

令表示这样的独立随机变量的总和。然后，对于总和PGF的这样的变量是： $S = \sum_{i=1}^n X_i$ $n$ $S$ $n=16$

\begin{aligned} pgfS & = E [t^{S}] \\ = E [t^{X_{1}}] E [t^{X_{2}}] \dots E [t^{X_{16}}] (... by independence) \\ = \prod_{i = 1}^{16} (1 - p_{i} (1 - t)) \end{aligned}

$\begin{align*}\displaystyle \text{pgfS} &= E[t^S] \\&= E[t^{X_1}] E[t^{X_2}] \dots E[t^{X_{16}}] \text{ (... by independence)} \\ &= \prod _{i=1}^{16} \left(1-p_i(1-t) \right)\end{align*}$

我们寻求，即： $P(S=9)$

\frac{1}{9!} \frac{d^{9} pgfS}{d t^{9}} |_{t = 0}

$\frac{1}{9!}\frac{d^9 \text{pgfS}}{dt^9}|_{t=0}$

全部做完。这将根据产生确切的符号解。答案在屏幕上打印的时间很长，但是完全可以处理，并且在我的计算机上使用Mathematica进行评估所需的时间不到秒。 $p_i$ $\frac{1}{100}$

例子

如果，则： $p_i = \frac{i}{17}, i= 1 \text{ to } 16$ $P(S=9) = \frac{9647941854334808184}{48661191875666868481} = 0.198268 \dots$

如果，则： $p_i = \frac{\sqrt{i}}{17}, i= 1 \text{ to } 16$ $P(S=9) = 0.000228613 \dots$

超过16次审判？

如果进行了16次以上的试验，则无需估算分布。对于或示例，上面的精确方法同样容易工作。例如，当，使用下面的代码评估整个pmf（即，在每个值）花费的时间少于秒。 $n = 50$ $n = 100$ $n = 50$ $\frac{1}{10}$ $s = 0, 1, \dots, 50$

Mathematica代码

给定一个值的向量，说： $p_i$

n = 16;   pvals = Table[Subscript[p, i] -> i/(n+1), {i, n}];

...这是一些Mathematica代码，可完成所需的所有操作：

pgfS = Expand[ Product[1-(1-t)Subscript[p,i], {i, n}] /. pvals];
D[pgfS, {t, 9}]/9! /. t -> 0  // N

0.198268

导出整个pmf：

Table[D[pgfS, {t,s}]/s! /. t -> 0 // N, {s, 0, n}]

...或者使用更整齐，更快的方式（感谢下面的Ray Koopman的建议）：

CoefficientList[pgfS, t] // N

对于的示例，只需花费1秒即可计算出，然后使用0.002秒即可得出整个pmf ，因此效率非常高。 $n = 1000$ pgfSCoefficientList

— 狼人
source

1

它甚至可以更简单。With[{p = Range@16/17}, N@Coefficient[Times@@(1-p+p*t),t,9]]给出9次成功的概率，并With[{p = Range@16/17}, N@CoefficientList[Times@@(1-p+p*t),t]]给出0，...，16次成功的概率。

— Ray Koopman

@RayKoopman太酷了。的Table用于 -值是故意的，以允许不适合与更一般的形式。您使用的是非常不错的！我在上面的代码中添加了一个，可以大大加快直接访问的速度。即使这样，它甚至比还要快。对于小于50的，这并没有太大的区别（两种方法都只花费一秒钟的很小一部分来生成整个pmf），但是当n很大时，您也将是一个实际的实际优势。

p

$p$ RangeCoefficientListExpandCoefficientListParallelTable

n

$n$ CoefficientList

— Wolfies 2013年

5

@wolfies评论，而我对此的回复尝试显示了我的其他答案的一个重要问题，我将在后面讨论。

具体情况（n = 16）

通过使用在计算中使用基数2（二进制）的“技巧”，有一种相当有效的方法可以对整个分布进行编码。仅需4行R代码即可获得的完整分布，其中。基本上，二进制变量可以采用向量的总共选择。现在假设我们对每个不同的选择进行编号，范围从到。它本身没有什么特别的，但是现在假设我们使用2为底的算法表示“选择数”。现在取这样我就可以写下所有选择，所以有 $Y=\sum_{i=1}^{n} Z_i$ $Pr(Z_i=1)=p_i$ $2^n$ $z=(z_1,\dots,z_n)$ $Z_i$ $1$ $2^n$ $n=3$ $2^3=8$ 选择。然后，“普通数”中的变为“二进制数”中的。现在假设我们将它们写为四个数字，那么我们就有。现在来看最后各自的位数-可以被认为是，等等计数以二进制形式提供了一种有效的方式来组织的总和。幸运的是，有一个R函数可以为我们完成此二进制转换，将其调用，然后通过将原始二进制形式转换为数值，然后我们将得到一个的向量 $1,2,3,4,5,6,7,8$ $1,10,11,100,101,110,111,1000$ $0001,0010,0011,0100,0101,0110,0111,1000$ $3$ $001$ $(Z_1=0,Z_2=0,Z_3=1)\implies Y=1$ intToBits(x)as.numeric(intToBits(x)) $32$ 元素，每个元素都是数字的以2为底的版本的数字（从右到左，不是从左到右读取）。结合使用此技巧和其他一些R向量化，我们可以计算4行R代码中的概率： $y=9$

exact_calc <- function(y,p){
    n       <- length(p)
    z       <- t(matrix(as.numeric(intToBits(1:2^n)),ncol=2^n))[,1:n] #don't need columns n+1,...,32 as these are always 0
    pz      <- z%*%log(p/(1-p))+sum(log(1-p))
    ydist   <- rowsum(exp(pz),rowSums(z))
    return(ydist[y+1])
}

插入统一大小写和sqrt根大小写得到完整的分布对于y为： $p_i^{(1)}=\frac{i}{17}$ $p_i^{(2)}=\frac{\sqrt{i}}{17}$

\begin{array}{cc} y & P r (Y = y | p_{i} = \frac{i}{17}) & P r (Y = y | p_{i} = \frac{\sqrt{i}}{17}) \\ 0 & 0.0000 & 0.0558 \\ 1 & 0.0000 & 0.1784 \\ 2 & 0.0003 & 0.2652 \\ 3 & 0.0026 & 0.2430 \\ 4 & 0.0139 & 0.1536 \\ 5 & 0.0491 & 0.0710 \\ 6 & 0.1181 & 0.0248 \\ 7 & 0.1983 & 0.0067 \\ 8 & 0.2353 & 0.0014 \\ 9 & 0.1983 & 0.0002 \\ 10 & 0.1181 & 0.0000 \\ 11 & 0.0491 & 0.0000 \\ 12 & 0.0139 & 0.0000 \\ 13 & 0.0026 & 0.0000 \\ 14 & 0.0003 & 0.0000 \\ 15 & 0.0000 & 0.0000 \\ 16 & 0.0000 & 0.0000 \end{array}

$\begin{array}{c|c}y & Pr(Y=y|p_i=\frac{i}{17}) & Pr(Y=y|p_i=\frac{\sqrt{i}}{17})\\ \hline 0 & 0.0000 & 0.0558 \\ 1 & 0.0000 & 0.1784 \\ 2 & 0.0003 & 0.2652 \\ 3 & 0.0026 & 0.2430 \\ 4 & 0.0139 & 0.1536 \\ 5 & 0.0491 & 0.0710 \\ 6 & 0.1181 & 0.0248 \\ 7 & 0.1983 & 0.0067 \\ 8 & 0.2353 & 0.0014 \\ 9 & 0.1983 & 0.0002 \\ 10 & 0.1181 & 0.0000 \\ 11 & 0.0491 & 0.0000 \\ 12 & 0.0139 & 0.0000 \\ 13 & 0.0026 & 0.0000 \\ 14 & 0.0003 & 0.0000 \\ 15 & 0.0000 & 0.0000 \\ 16 & 0.0000 & 0.0000 \\ \end{array}$

因此，对于在试验中成功的特定问题，确切的计算是简单明了的。这也适用于大约的许多概率-超过此概率，您可能会开始遇到内存问题，并且需要不同的计算技巧。 $y$ $16$ $n=20$

请注意，通过应用建议的“β分布”，我们得到参数估计值，这给出了在几乎均匀的概率估计值，从而给出了。鉴于具有的beta分布的密度非常接近值的直方图，这似乎很奇怪。什么地方出了错？ $\alpha=\beta=1.3206$ $y$ $pr(y=9)=0.06799\approx\frac{1}{17}$ $\alpha=\beta=1.3206$ $p_i$

一般情况

我现在将讨论更一般的情况，以及为什么我的简单Beta近似失败。基本上，通过编写然后将与另一个分布实际上是一个重要的假设-我们可以用一个二项式概率-剩下的唯一问题是使用哪个值。一种解决方法是使用在实际离散均匀的混合密度。因此，我们用离散密度代替Beta分布 $(y|n,p)\sim Binom(n,p)$ $p$ $p\sim f(\theta)$ $p$ $p_i$ $p\sim Beta(a,b)$ $p\sim \sum_{i=1}^{16}w_i\delta(p-p_i)$ 。然后，使用混合近似值可以用单词表示，选择概率为的值，并假定所有bernoulli试验都具有该概率 $p_i$ $w_i$ 。显然，为了使这种近似有效，大多数值应彼此相似。这基本上意味着，对于@wolfies值的均匀分布，使用beta混合分布时，导致糟糕的近似值。这也解释了为什么对于，逼近效果好得多-它们的分布较少。 $p_i$ $p_i=\frac{i}{17}$ $p_i=\frac{\sqrt{i}}{17}$

然后，混合使用观察到的对单个所有可能选择进行平均。现在，由于“混合”就像是加权平均值，因此它不可能比使用单个最佳更好。因此，如果充分展开，则不会有单个可以为所有提供良好的近似值。 $p_i$ $p$ $p$ $p_i$ $p$ $p_i$

我在另一个答案中确实说过一件事，那就是最好在限制范围内使用beta分布的混合-但这仍然无济于事，因为它仍在单个混合 。更有意义的是将间隔分成几部分，并且每部分中都有一个二项式。例如，我们可以选择作为拆分，并在每个概率范围内拟合九个二项式。基本上，在每个拆分中，我们将拟合一个简单的近似值，例如使用二项式，其概率等于的平均值 $p$ $(0,1)$ $(0,0.1,0.2,\dots,0.9,1)$ $0.1$ $p_i$ 在那个范围内。如果我们使间隔足够小，则近似值将变得任意好。但是请注意，所有这些操作使我们不得不处理各种概率不同的独立二项式试验，而不是伯努利试验。但是，该答案的前一部分表明，只要二项式的数目足够小（例如10-15左右），我们就可以进行精确的计算。

为了将基于bernoulli的答案扩展到基于二项式的答案，我们只需“重新解释”变量是什么。我们只是简单地声明 -简化为最初的基于但现在说明成功来自哪个二项式。因此，情况现在意味着所有“成功”都来自第三个二项式，而没有一个来自前两个。 $Z_i$ $Z_i=I(X_i>0)$ $Z_i$ $(Z_1=0,Z_2=0,Z_3=1)$

请注意，这仍然是“指数”的，因为计算数量类似于，其中是二项式的数量，是组的大小-因此您具有其中。但这比使用bernoulli随机变量要处理的更好。例如，假设我们将概率分为组，每组中的概率。与相比，这提供了计算 $k^g$ $g$ $k$ $Y\approx\sum_{j=1}^{g}X_j$ $X_j\sim Bin(k,p_j)$ $2^{gk}$ $n=16$ $g=4$ $k=4$ $4^4=256$ $2^{16}=65536$

通过选择组，并注意限制约为（大约单元格），我们可以有效地使用此方法将最大增加到。 $g=10$ $n=20$ $10^7$ $n$ $n=50$

如果我们通过降低进行更粗略的近似，我们将增加的“可行”大小。表示有效约为。除此之外，法线近似值应该非常准确。 $g$ $n$ $g=5$ $n$ $125$

— 概率逻辑
source

@momo-我认为可以，因为我的答案是解决问题的两种不同方法。这个答案不是我第一个答案的编辑版本-只是一个不同的答案

— 概率

1

要获得一种R非常有效的解决方案，并且可以处理更大得多的值，请参阅stats.stackexchange.com/a/41263。例如，它解决了，并在三秒钟内给出了完整的分布。（类似的Mathematica 9解决方案-参见@wolfies的答案-在较小的也能很好地执行，但无法以的大值完成执行。）

n

$n$

n = 10^{4}

$n=10^4$

n

$n$

n

$n$

— whuber

5

（通常难以处理的）pmf是 R代码：

Pr (S = k) = \sum_{\begin{matrix} A \subset {1, \dots, n} \\ | A | = k \end{matrix}} (\prod_{i \in A} p_{i}) (\prod_{j \in {1, \dots, n} ∖ A} (1 - p_{j})) .

$\Pr(S=k) = \sum_{\substack{A\subset\{1,\dots,n\}\\ |A|=k}} \left( \prod_{i\in A} p_i \right)\left(\prod_{j\in \{1,\dots,n\}\setminus A} (1-p_j) \right) \, .$

p <- seq(1, 16) / 17
cat(p, "\n")
n <- length(p)
k <- 9
S <- seq(1, n)
A <- combn(S, k)
pr <- 0
for (i in 1:choose(n, k)) {
    pr <- pr + exp(sum(log(p[A[,i]])) + sum(log(1 - p[setdiff(S, A[,i])])))
}
cat("Pr(S = ", k, ") = ", pr, "\n", sep = "")

对于在狼人答案中使用的，我们有： $p_i$

Pr(S = 9) = 0.1982677

当增大时，使用卷积。 $n$

— 禅
source

1

用R代码做到这一点真的很有帮助。我们中的一些人更具体地思考，并且对生成函数的可操作版本有很大帮助。

— DWin

@DWin我提供高效R的解决方案同样的问题代码（与所述的不同的值）在stats.stackexchange.com/a/41263。此问题的解决时间是该代码的总计算时间为0.00012秒（通过求解1000次而估算），而该代码的总计算时间为0.53秒（通过求解一次而估算），而使用Wolfies的Mathematica代码则为0.00058秒（通过求解1000次而估算）。

p_{i}

$p_i$ R

— whuber

因此，将遵循泊松二项分布。

P (S = k)

$P(S=k)$

— fccoelho 2014年

+1非常有用的帖子，有助于我回答这个问题。我想知道使用日志是不是真正需要的更酷的数学公式。我不太担心运行时间...

— Antoni Parellada