Beta发行背后的直觉是什么?


438

免责声明:我不是统计学家,而是软件工程师。我在统计学方面的大部分知识都来自自我教育,因此我在理解概念上仍然有很多空白,这些概念对于这里的其他人而言似乎微不足道。因此,如果答案包含较少的具体术语和更多的解释,我将非常感激。想象一下,你在跟奶奶说话:)

我试图把握性质beta分布 -它应该用于和如何解释它在各种情况下。如果我们说的是正态分布,则可以将其描述为火车的到站时间:最经常到达的时间是准时到达的,更不常见的是早到1分钟或晚到1分钟的时间,很少有差异到达的距离平均值20分钟 均匀分配尤其描述了彩票中每张彩票的机会。二项分布可以用硬币翻转等来描述。但是,对beta分布有这样直观的解释吗?

假设和。Beta分布在这种情况下看起来像这样(在R中生成):α=.99β=.5B(α,β)

在此处输入图片说明

但这实际上是什么意思?Y轴显然是概率密度,但是X轴上是什么?

我非常感谢您对本示例或任何其他示例所做的任何解释。


13
y轴不是概率(这很明显,因为根据定义,概率不能在区间,但是此图可扩展到并且从原理扩展到)。它是概率密度:每单位概率(您已经将描述为比率)。50 X X[0,1]50xx
ub

4
@whuber:是的,我知道PDF是什么-那只是我的描述中的错误。感谢您提供有效的注释!
ffriend

1
我将尝试查找参考,但是我知道形式的广义Beta分布的一些更怪异的形状具有诸如物理学的应用。另外,您可以在数据匮乏的环境中将其适合专家数据(最小值,模式,最大值),它通常比使用三角分布(不幸的是,IE通常使用)更好。a+(ba)Beta(α1,α2)
SecretAgentMan

您显然从未去过德国铁路公司(Deutsche Bahn)。你会不那么乐观。
henning

Answers:


621

简短的说法是Beta分布可以理解为表示概率的分布-也就是说,当我们不知道概率是什么时,它表示概率的所有可能值。这是我最喜欢的直观说明:

任何遵循棒球知识的人都熟悉击球平均数 -只是将一名球员获得基本击球的次数除以他击球的次数(因此,这只是0和之间的百分比1)。.266通常被认为是平均击球率,而.300被认为是出色的击球率。

想象一下,我们有一个棒球运动员,我们想预测一下他整个赛季的平均命中率。您可能会说到目前为止,我们只能使用他的平均命中率-但这在赛季开始之初将是非常糟糕的衡量标准!如果一名球员上一次击球并获得单打,则他的击球平均值是短暂的1.000;而如果击球,则他的击球平均值是0.000。如果您击打五到六次球并不会好得多-您可以得到一个幸运的连胜并获得平均值1.000,或者可以得到一个不幸的连胜并获得平均值0,而这两者都不是如何预测的好兆头。您将在那个赛季开始比赛。

为什么前几次命中的击球平均值不能很好地预测最终的击球平均值?当球员的第一个击球技巧是三振时,为什么没有人预测他整个赛季都不会受到打击?因为我们要符合事先的期望。我们知道,在历史上,在赛季最安打率都像之间的徘徊.215.360,两边有一些极为罕见的例外。我们知道,如果一名球员在开始时连续三连败,这可能表明他的成绩会比平均水平差一些,但我们知道他可能不会偏离该范围。

鉴于我们的平均命中率问题可以用二项式分布(一系列成功和失败)来表示,代表这些先验期望(在统计上我们称之为先验)的最佳方法是使用Beta分布-也就是说,在我们看到玩家第一次挥杆之前,我们大致预期他的击球平均值会是多少。Beta分布的域(0, 1)就像概率一样,因此我们已经知道我们处在正确的轨道上,但是Beta对于此任务的适用性远远超出了此范围。

我们预计该球员的整个赛季的平均命中率很可能约为.27,但合理的范围是.21.35。这可以用参数和的Beta分布表示:β = 219α=81β=219

curve(dbeta(x, 81, 219))

Beta(81,219)

我提出这些参数的原因有两个:

  • 平均值是αα+β=8181+219=.270
  • 从图中可以看出,这种分布几乎完全在(.2, .35)-击球平均值的合理范围内。

您问x轴在beta分布密度图中代表什么-在这里它代表他的击球平均值。因此,请注意,在这种情况下,不仅y轴是概率(或更准确地说是概率密度),而且x轴也是如此(毕竟,击球平均数只是命中的概率)!该Beta分布是代表一个概率分布概率

但是,这就是Beta分布如此合适的原因。想象一下,玩家被击中。他本赛季的记录是现在1 hit; 1 at bat。然后,我们必须更新概率-我们想将整个曲线稍微移动一点以反映我们的新信息。虽然证明这一点的数学运算有些复杂(如此处所示),但结果非常简单。新的Beta版本将是:

Beta(α0+hits,β0+misses)

其中和是我们开始使用的参数-即81和219。因此,在这种情况下, 增加了1(他的一击),而却根本没有增加(没有遗漏) )。这意味着我们的新发行版为,或:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

在此处输入图片说明

请注意,它几乎没有改变-这种改变的确是肉眼看不见的!(那是因为一击并没有任何意义)。

但是,球员在整个赛季中命中的次数越多,曲线就越能适应新的证据,并且基于我们拥有更多证据的事实,曲线也会越来越窄。假设整个赛季中途他的击球次数达到了300次,其中有100次命中。新的发行为,或:Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

在此处输入图片说明

请注意,现在的曲线比以前更细且向右移动(击球平均值更高)-我们对玩家的击球平均值有了更好的了解。

该公式最有趣的输出之一是所得Beta分布的期望值,该期望值基本上是您的新估计。回想一下,Beta分布的期望值为。因此,在300次真实的击打中击中100次之后,新Beta分布的期望值为注意,该值低于幼稚的估算值的,但比估计更高你开始了季节与(αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270)。您可能会注意到,此公式等同于为玩家的命中和非命中次数添加“领先”-您说的是“本赛季以记录中的81次命中和219次非命中来启动他” )。

因此,Beta分布是最适合代表一个概率分布的概率 -在我们不知道的概率是事先什么情况,但我们有一些合理的猜测。


5
@ffriend:很高兴,它能帮到您-我希望您跟随棒球比赛(否则我想知道它是否可以理解!)
David Robinson

11
这是约翰·库克(John Cook)的一个类似示例,使用具有不同评论数量的二进制亚马逊卖家排名。评论中选择先验的讨论特别有意义
Dimitriy V. Masterov 2013年

4
您应该指出,先验不需要分布(除非您 Jeffreys的先验,仅可能性必须进行beta分布。)α0=β0=1/2
Neil G

4
+我喜欢您对当有更多数据时如何更新发行版的解释。
Mike Dunlavey

2
@ user27997给出的期望平均值为.27,标准差对于击球平均值非常近似现实(约.025)。顺便说一句,我给出了如何从一个期望的均值和方差计算α和β的解释在这里
David Robinson

48

Beta分布用于建模的东西,有一个限制范围,如0到1。

例如,只有两个结果(例如成功和失败)的实验中成功的概率。如果您进行的实验次数有限,但有些实验是成功的,则可以通过beta分布来代表告诉您的内容。

另一个例子是订单统计。例如,如果您生成几个(例如4个)统一的0.1随机数,并对它们进行排序,那么第三个随机数的分布是什么?

nss>1Beta(s+1,(ns)+1)

进一步了解...


41

(0,1)

U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

该结果表明,贝塔分布自然出现在数学中,并且在数学中具有一些有趣的应用。


28

有两个主要动机:

首先,β分布在伯努利分布之前是共轭的。这意味着,如果您具有未知的概率(例如通过重复抛硬币估算的硬币偏差),那么一系列抛硬币所导致的未知偏差的可能性就是beta分布的。

其次,β分布是指数族的结果是,对于一组足够的统计量,它是最大熵分布。在所述β分布的情况下,这些统计数据是和为的。这意味着,如果仅对一组样本保留这些足够统计量的平均值,则可以对样本分布做出的最小假设是它是beta分布的。log(x)log(1x)x[0,1]x1,,xn

对于通常在[0,1]上建模的事物,beta发行版不是特殊的,因为许多发行版可以被截断为该支持,并且在许多情况下更适用。


23

在此处输入图片说明

假设某个电子商务网站上的卖家获得500个评分,其中400个评分为好,100个评分为差。

我们认为这是长度为500的伯努利实验的结果,该实验导致400次成功(1 =好),而潜在概率未知。p

因为0.8 = 400/500,所以以卖方的评分为天真的质量是80%。但是,以评分的形式,“真实”质量是我们所不知道的。

从理论上讲,“真实”质量为的卖方可能最终获得500评级的400件商品。p=77%

图片中的尖点条形图表示在给定的“真”值下, 400的500个评级为良好时,模拟发生的频率。条形图是模拟结果的直方图的密度。p

正如您所看到的-和(橙色)的beta分布的密度曲线紧紧围绕着条形图(模拟直方图的密度)。β = 100 + 1α=400+1β=100+1

因此,β分布从本质上定义了给定实验结果的伯努利实验成功概率为的概率。p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
感谢您的贡献!但是,我对某些事情感到困惑:尽管直方图图例指出它们显示了beta密度,但您似乎声称它们还描述了二项式模拟的结果(“模拟发生的频率”)。但是,尽管这两个图恰好在图中看起来很接近,但这两者却是不同的。(这是由于参数大的Beta接近正态性以及二项式分布的中心极限定理。)
whuber

这是一个好点!但是我不确定如何正确地改写它。当然,如果我只绘制直方图,那么鉴于其大小,您不会看到太多的密度。因此,是的,实际上我猜直方图不仅是按比例缩小的,而且实际上是原始直方图的(估计)密度。给定运行次数,我还可以找出一个因子并将其线性缩小,但它看起来几乎完全相同,再加上(实际上)我要比较的是beta的密度与模拟结果的密度(原始直方图的密度)。
拉斐尔

8

到目前为止,大多数的答案都涵盖了生成Beta RV的理由,以作为样本比例的先验,并且一个聪明的答案将Beta RV与订单统计相关。

Beta分布还来自两个Gamma(k_i,1)RV之间的简单关系,i = 1,2,称为X和Y。X/(X + Y)具有Beta分布。

伽玛RV已在建模独立事件的到达时间时有了其原理,因此我将不予解决,因为这不是您的问题。但是,花费大量时间来完成依次执行的两个任务中的一个自然会使其适合Beta分布。


1
+1感谢您指出有关使用Gamma形成Beta发行版的信息。我听说,如果要将Beta泛化为Dirichlet,只需在分母中添加更多的Gamma。也许统计学家只是知道这一点,但是对我来说,这在查看分类观察的置信区间时确实很有用。
Mike Dunlavey

4

我的直觉说,它“权衡”了成功的当前比例“ ”和失败的当前比例“ ”:。其中常数为。该就像是一个“权重”的成功做出的贡献。该就像是一个“权重”失败的贡献。您有一个二维参数空间(一个用于成功贡献,一个用于失败贡献),这使人们很难思考和理解。1 - X ˚F X ; α β = 常数X α - 11 - X β - 1 1 /α β α βx(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

在引用的示例中,参数为上一年的alpha = 81和beta = 219 [在300支蝙蝠或(81和300-81 = 219)中有81次命中]

我不知道他们所说的81次命中和219次出局的先验假设,但是用英语来说,这是先验假设。

注意,随着季节的进行,曲线向左或向右移动,模态概率向左或向右移动,但仍然存在曲线。

我想知道,大数数Laa能否最终获得成功,并将击球平均数拉回到0.270。

一般而言,要估算出alpha和beta的值,它将获得完整的先前发生次数(以蝙蝠为单位),已知的击球平均值,获得总命中率(alpha),beta或总计减去失败次数)并得出-你有你的公式。然后,如图所示处理其他数据。


2

F(X)=tanh((x/p)n)

顺便说一句,如果您通过显微镜观察得出尺寸分布并且您的粒子数量呈数字分布,而您的目标是处理体积分布,那将会是什么?要获得原始分配的右侧边界几乎是强制性的。因此,转换更加一致,因为您可以确保在新的体积分布中不会出现任何模式,也不会出现超出工作间隔的中值或中等大小。此外,还可以避免格陵兰非洲效应。

如果您具有规则的形状(例如,球体或棱镜),则转换非常容易。您应该在数字beta分布的alpha参数中添加三个单位,并获得体积分布。


1
欢迎来到该网站。这是为了回答OP的问题吗?您能否阐明这与Beta发行版背后的直觉有何关系?
gung

请进行编辑以阐明有关Beta发行版的直觉。
Glen_b

1

我认为Beta发行背后没有直觉!Beta发行版是具有FIX范围的非常灵活的发行版!对于整数a和b甚至很容易处理。Beta的许多特殊情况也有其本义,例如统一分布。因此,如果需要像这样对数据建模或具有更大的灵活性,那么beta是一个很好的选择。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.