二项式和Beta分布之间的关系

27

我不是程序员而是统计学家，所以我希望这个问题不要太幼稚。

它发生在随机执行的采样程序执行中。如果我对程序状态进行N = 10个随机时间采样，则可以看到函数Foo在例如这些采样中的I = 3上执行。我对这能告诉我有关Foo执行的实际时间F的时间感兴趣。

我知道我是二项分布的，均值F * N。我也知道，给定I和N，F遵循beta分布。实际上，我已经通过程序验证了这两个分布之间的关系，即

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

问题是我对这种关系没有直觉。我无法“想象”它为什么起作用。

编辑：所有答案都是具有挑战性的，尤其是@whuber，我仍然需要了解，但整理订单统计数据非常有帮助。尽管如此，我已经意识到我应该问一个更基本的问题：给定I和N，F的分布是什么？每个人都指出它是Beta，我知道。我终于从维基百科（先前的共轭）中弄清楚了Beta(I+1, N-I+1)。使用程序进行探索之后，这似乎是正确的答案。所以，我想知道我是否错。而且，我仍然对上面显示的两个CDF之间的关系，为什么它们求和为1，以及它们甚至与我真正想知道的事情有什么关系感到困惑。

binomial beta-binomial beta-distribution

— 迈克·邓拉维
source

如果“您真正想知道的”是“ Foo执行的实际时间分数”，那么您要询问的是二项式置信区间或（贝叶斯）二项式可信区间。

— ub

@whuber：嗯，我使用随机暂停方法进行性能调整已经超过了30年，还有其他一些人也发现了它。我告诉人们，如果在2个或多个随机时间样本上满足某些条件，则将其删除将节省大量时间。假设我们不知道贝叶斯先验知识，我试图明确地说明一个分数。下面是一般的火焰：stackoverflow.com/questions/375913/...和stackoverflow.com/questions/1777556/alternatives-to-gprof/...

— 麦克Dunlavey

1

好主意。统计假设是中断与执行状态无关，这是一个合理的假设。一个二项式置信区间是用来表示不确定性的好工具。（也可以大开眼界：在您的3/10情况下，对称的两面95％CI的真实概率为[6.7％，65.2％]。在2/10情况下，间隔为[2.5 ％，55.6％]。这些范围很广！即使使用2/3，下限仍然不到10％。这里的教训是，相当罕见的事情可能会发生两次。）

— whuber

@whuber：谢谢。你是对的。期望值更有用。就先验而言，我指出，如果您只看到一次，那么除非您碰巧知道程序处于无限（或非常长）循环中，否则它不会告诉您太多信息。

— Mike Dunlavey 2010年

我认为所有答案和评论都肯定是有启发性和正确性的，但是没有人真正提及@MikeDunlavey在其原始帖子中提出的有趣的平等。可以在Beta Wikipedia en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function上找到这种相等性，但是没有给出为什么这样的描述，只是将其表示为属性。

— bdeonovic

27

考虑的顺序统计的独立从均匀分布绘制。由于订单统计信息具有Beta分布，因此不超过的机会由Beta积分给出 $x_{[0]} \le x_{[1]} \le \cdots \le x_{[n]}$ $n+1$ $x_{[k]}$ $p$

Pr [x_{[k]} \leq p] = \frac{1}{B (k + 1, n - k + 1)} \int_{0}^{p} x^{k} (1 - x)^{n - k} d x .

$\Pr[x_{[k]} \le p] = \frac{1}{B(k+1, n-k+1)} \int_0^p{x^k(1-x)^{n-k}dx}.$

（为什么？这是一个不严格但令人难忘的演示位于和之间的机会是均匀值中的一个，其中介于和之间的机会。，其中至少一个位于和，其余的位于和。对于无穷小中的一阶，我们只需要考虑一个值恰好是一个值（即本身）位于和，因此 $x_{[k]}$ $p$ $p + dp$ $n+1$ $k$ $0$ $p$ $p$ $p + dp$ $p + dp$ $1$ $dp$ $x_{[k]}$ $p$ $p + dp$ $n - k$ 值超过。因为所有值都是独立且一致的，所以此概率与成比例。对于一阶，等于，恰好是Beta分布的。术语可以直接从该参数作为多项式系数得出，也可以间接推导为积分的归一化常数。） $p + dp$ $p^k (dp) (1 - p - dp)^{n-k}$ $dp$ $p^k(1-p)^{n-k}dp$ $\frac{1}{B(k+1, n-k+1)}$ ${n+1}\choose{k,1, n-k}$

根据定义，事件是值不超过。等效地，至少个值不超过：这个简单的（我希望很明显）断言提供了您想要的直觉。等价陈述的概率由二项式分布给出， $x_{[k]} \le p$ $k+1^\text{st}$ $p$ $k+1$ $p$

Pr [at least k + 1 of the x_{i} \leq p] = \sum_{j = k + 1}^{n + 1} (\binom{n + 1}{j}) p^{j} (1 - p)^{n + 1 - j} .

$\Pr[\text{at least }k+1\text{ of the }x_i \le p] = \sum_{j=k+1}^{n+1}{{n+1}\choose{j}} p^j (1-p)^{n+1-j}.$

总而言之，Beta积分将事件的计算分为一系列计算：在范围内找到至少值（通常我们将使用二项式cdf计算其概率）分解为相互独占的情况下精确地值在范围和1个值的范围是从对于所有可能的，，和是无穷小长度。所有这些“窗口”总和（即积分）必须与二项式cdf具有相同的概率。 $k+1$ $[0, p]$ $k$ $[0, x]$ $[x, x+dx]$ $x$ $0 \le x \lt p$ $dx$ $[x, x+dx]$

替代文字

— ub
source

感谢您的努力。我将必须对此进行真正的研究，因为这不是我的“母语”。另外，我看到了很多美元符号和格式设置。有什么我不知道的东西使它看起来像真正的数学吗？

— Mike Dunlavey 2010年

发生了什么？突然之间数学出现了，在这里输入确实很慢。

— Mike Dunlavey 2010年

@Mike请参阅meta.stats.stackexchange.com/q/218/919。

— ub

如果您愿意看看，我修改了这个问题。谢谢。

— Mike Dunlavey 2010年

1

有点晚了，但我终于有时间坐下来重新提出您的论点。关键是“多项式系数”。我曾尝试使用普通的旧二项式系数来解决这个问题，但现在我正全力以赴。再次感谢您的答复。

— Mike Dunlavey

12

将二项式的pdf视为的函数：和Beta的pdf作为的函数：你可能可以看到对于和有适当的（整数）选择，它们是相同的。据我所知，这就是关系的全部内容：进入二项式pdf 的方式恰好称为Beta分布。 $x$

f (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$f(x) = {n\choose{x}}p^{x}(1-p)^{n-x}$

p

$p$

g (p) = \frac{Γ (a + b)}{Γ (a) Γ (b)} p^{a - 1} (1 - p)^{b - 1}

$g(p)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1}$

a

$a$

b

$b$

p

$p$

— 安妮子
source

我知道它们看起来几乎相同，但是如果我用y代替nx，并且如果我使用Beta pdf并用x代替a-1并用y代替b-1，我会得到（x + y + 1）的额外系数，或n + 1。即（x + y + 1）！/ x！/ y！* p ^ x * q ^ y。这似乎足以让我失望。

— Mike Dunlavey 2010年

1

也许有人会全力以赴，但是在“直观”的解释中，我们总是可以手动挥散不依赖于所关注变量（和）的常数（如），但需要使pdf添加/集成到1。请随时用“与”成比例的符号替换“等于”符号。

n + 1

$n+1$

x

$x$

p

$p$

— Aniko

好点子。我想我越来越了解。我还在想能说什么X告诉你的磷分配的，为什么这两个CDFS总和为1

— 麦克Dunlavey

1

我对“直觉”的解释持不同观点。在某些情况下，我们不太关心常量，但是在这种情况下，问题的关键在于查看为什么出现n + 1而不是n。如果您不了解，那么您的“直觉”是不正确的。

— ub

如果您愿意看看，我修改了这个问题。谢谢。

— Mike Dunlavey 2010年

5

如您所述，Beta分布描述了试验概率参数的分布，而二项式分布描述了结果参数的分布。重写您的问题，您问的是为什么也就是说，观察值加一大于观察值的可能性与观察值加一大于观察值的期望。 $F$ $I$

P (F \leq \frac{i + 1}{n}) + P (I \leq f n - 1) = 1

$P(F \le \frac {i+1} n)+P(I \le fn-1)=1$

P (F n \leq i + 1) + P (I + 1 \leq f n) = 1

$P(Fn \le i+1)+P(I+1 \le fn)=1$

P (F n \leq i + 1) = P (f n < I + 1)

$P(Fn \le i+1)=P(fn<I+1)$

我承认这可能无助于理解问题的原始表述，但也许至少有助于了解这两个分布如何使用重复的伯努利试验的相同基础模型来描述不同参数的行为。

— 塞斯库
source

感谢您的支持。所有的答案都帮助我思考问题，并可能更好地理解我的要求。

— Mike Dunlavey 2010年

如果您愿意看看，我修改了这个问题。谢谢。

— Mike Dunlavey 2010年

1

关于您的修订：是的，，只要您的采样间隔足够长，以至于每个观察值都是独立且均匀分布的。请注意，如果您想成为贝叶斯算法，并为期望的实际比例指定一个不均匀的先验分布，则可以在这两个参数中添加其他内容。

F \sim B e t a (I + 1, N - I + 1)

$F\sim Beta(I+1,N-I+1)$

— sesqu 2010年

@sesqu，您的回答是否与我在这里的问题有关：stats.stackexchange.com/questions/147978/…？感谢您对此的想法。

— Vicent，2015年

1

在贝叶斯地区，Beta分布是二项分布的p参数的共轭先验。

— 伊恩·菲斯克（Ian Fiske）
source

2

是的，但是为什么会这样呢？

— vonjd '18年

1

无法评论其他答案，因此我必须创建自己的答案。

后验= C *可能性*先验（C是使后验积分为1的常数）

给定一个使用二项分布进行似然性的模型，并使用Beta分布进行先验的模型。产生后验的两者的乘积也是Beta分布。由于先验和后验均为Beta，因此它们是共轭分布。先验（贝塔）称为似然共轭先验（二项式）。例如，如果将Beta与Normal相乘，则后验不再是Beta。总之，贝塔和二项式是贝叶斯推断中经常使用的两个分布。Beta是二项式的共轭先验，但两个分布不是另一个的子集或超集。

贝叶斯推理的关键思想是我们将参数p视为范围为[0,1]的随机变量，这与我们将参数p视为固定的频繁推断方法相反。如果仔细查看Beta分布的属性，您会看到其平均数和众数完全由和决定，与参数p无关 $\alpha$ $\beta$ 。这加上其灵活性，是为什么通常将Beta用作Prior的原因。

— 约翰·李
source

1

简介：经常说Beta发行版是发行版上的发行版！但是什么意思呢？

从本质这意味着您可以固定并将视为的函数。下面的计算表明，当您将从调整为时，将从增加至。在每个增加率是完全在该。 $n,k$ $\mathbb P[Bin(n,p)\geqslant k]$ $p$ $\mathbb P[Bin(n,p)\geqslant k]$ $0$ $1$ $p$ $0$ $1$ $p$ $\beta(k,n-k+1)$ $p$

令表示具有样本的二项式随机变量和成功概率。使用基本代数 $Bin(n,p)$ $n$ $p$

\frac{d}{d p} P [B i n (n, p) = i] = n (P [B i n (n - 1, p) = i - 1] - P [B i n (n - 1, p) = i]) .

$\frac d{dp}\mathbb P[Bin(n,p)=i]=n\Big(\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big).$

它还具有一些不错的组合证明，可以将其视为一种练习！

因此，我们有：

\frac{d}{d p} P [B i n (n, p) ⩾ k] = \frac{d}{d p} \sum_{i = k}^{n} P [B i n (n, p) = i] = n (\sum_{i = k}^{n} P [B i n (n - 1, p) = i - 1] - P [B i n (n - 1, p) = i])

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=\frac d{dp}\sum_{i=k}^{n}\mathbb P[Bin(n,p)=i]=n\Big(\sum_{i=k}^{n}\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big)$ 是伸缩系列，可以简化为

\frac{d}{d p} P [B i n (n, p) ⩾ k] = n P [B i n (n - 1, p) = k - 1] = \frac{n!}{(k - 1)! (n - k)!} p^{k - 1} (1 - p)^{n - k} = β (k, n - k + 1) .

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=n\mathbb P[Bin(n-1,p)=k-1]=\frac{n!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}=\beta(k,n-k+1).$

备注要查看剧情的交互式版本，请查看this。您可以下载笔记本或仅使用Binder链接。

— MR_BD
source