简短的说法是Beta分布可以理解为表示概率的分布-也就是说,当我们不知道概率是什么时,它表示概率的所有可能值。这是我最喜欢的直观说明:
任何遵循棒球知识的人都熟悉击球平均数 -只是将一名球员获得基本击球的次数除以他击球的次数(因此,这只是0
和之间的百分比1
)。.266
通常被认为是平均击球率,而.300
被认为是出色的击球率。
想象一下,我们有一个棒球运动员,我们想预测一下他整个赛季的平均命中率。您可能会说到目前为止,我们只能使用他的平均命中率-但这在赛季开始之初将是非常糟糕的衡量标准!如果一名球员上一次击球并获得单打,则他的击球平均值是短暂的1.000
;而如果击球,则他的击球平均值是0.000
。如果您击打五到六次球并不会好得多-您可以得到一个幸运的连胜并获得平均值1.000
,或者可以得到一个不幸的连胜并获得平均值0
,而这两者都不是如何预测的好兆头。您将在那个赛季开始比赛。
为什么前几次命中的击球平均值不能很好地预测最终的击球平均值?当球员的第一个击球技巧是三振时,为什么没有人预测他整个赛季都不会受到打击?因为我们要符合事先的期望。我们知道,在历史上,在赛季最安打率都像之间的徘徊.215
和.360
,两边有一些极为罕见的例外。我们知道,如果一名球员在开始时连续三连败,这可能表明他的成绩会比平均水平差一些,但我们知道他可能不会偏离该范围。
鉴于我们的平均命中率问题可以用二项式分布(一系列成功和失败)来表示,代表这些先验期望(在统计上我们称之为先验)的最佳方法是使用Beta分布-也就是说,在我们看到玩家第一次挥杆之前,我们大致预期他的击球平均值会是多少。Beta分布的域(0, 1)
就像概率一样,因此我们已经知道我们处在正确的轨道上,但是Beta对于此任务的适用性远远超出了此范围。
我们预计该球员的整个赛季的平均命中率很可能约为.27
,但合理的范围是.21
到.35
。这可以用参数和的Beta分布表示:β = 219α = 81β= 219
curve(dbeta(x, 81, 219))
我提出这些参数的原因有两个:
- 平均值是αα + β= 8181 + 219= .270
- 从图中可以看出,这种分布几乎完全在
(.2, .35)
-击球平均值的合理范围内。
您问x轴在beta分布密度图中代表什么-在这里它代表他的击球平均值。因此,请注意,在这种情况下,不仅y轴是概率(或更准确地说是概率密度),而且x轴也是如此(毕竟,击球平均数只是命中的概率)!该Beta分布是代表一个概率分布概率。
但是,这就是Beta分布如此合适的原因。想象一下,玩家被击中。他本赛季的记录是现在1 hit; 1 at bat
。然后,我们必须更新概率-我们想将整个曲线稍微移动一点以反映我们的新信息。虽然证明这一点的数学运算有些复杂(如此处所示),但结果非常简单。新的Beta版本将是:
贝塔(α0+ 点击,β0+ 未命中)
其中和是我们开始使用的参数-即81和219。因此,在这种情况下, 增加了1(他的一击),而却根本没有增加(没有遗漏) )。这意味着我们的新发行版为,或:α0β0αβ贝塔(81+1,219)
curve(dbeta(x, 82, 219))
请注意,它几乎没有改变-这种改变的确是肉眼看不见的!(那是因为一击并没有任何意义)。
但是,球员在整个赛季中命中的次数越多,曲线就越能适应新的证据,并且基于我们拥有更多证据的事实,曲线也会越来越窄。假设整个赛季中途他的击球次数达到了300次,其中有100次命中。新的发行为,或:贝塔(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
请注意,现在的曲线比以前更细且向右移动(击球平均值更高)-我们对玩家的击球平均值有了更好的了解。
该公式最有趣的输出之一是所得Beta分布的期望值,该期望值基本上是您的新估计。回想一下,Beta分布的期望值为。因此,在300次真实的击打中击中100次之后,新Beta分布的期望值为注意,该值低于幼稚的估算值的,但比估计更高你开始了季节与(αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200= .3338181 + 219= .270)。您可能会注意到,此公式等同于为玩家的命中和非命中次数添加“领先”-您说的是“本赛季以记录中的81次命中和219次非命中来启动他” )。
因此,Beta分布是最适合代表一个概率分布的概率 -在我们不知道的概率是事先什么情况,但我们有一些合理的猜测。