给定参考人口,估计成功的可能性


11

假设您有以下情况:

您随着时间的推移观察到1000名保龄球运动员,他们每个人都玩相对较少的游戏(例如1到20)。您指出了每个玩家的罢工百分比超过每个玩家所玩游戏的数量。

一个新的保龄球选手进来,打了10场比赛,得到了3次罢工。

假定任何球员的罢工次数分布为二项式。

我想估计该球员成功的“真实”概率。

请注意以下几点:

  1. 这不是现实情况,也不是学校问题,只是一个自省的问题。
  2. 我是一名学生,其统计教育水平高于Stats 101课程。我对诸如最大似然估计之类的推论有所了解...所以随时告诉我应该阅读的统计数据领域。
  3. 我的问题可能缺少信息,或者如果它对成功概率的分布大致正常是有益的,请告诉我。

非常感谢你


您认为该玩家的概率与其他1000个玩家的概率之间的关系是什么?换句话说,为什么我们在估计该玩家的概率时会考虑其他1000个?
rolando2 2012年

1
我假设玩家的真实罢工百分比实质上是与其他1000个玩家相同的罢工百分比分布。换句话说,这个新球员没有什么特别的,他只是另一个随机球员。希望这是有道理的。
Uwat 2012年

Answers:


10

这是一个很好的例子,说明了惯常主义和贝叶斯推理方法之间的区别。

我的第一个简单化的常客对策: 如果您已经假设罢工的分布是二项式的,那么您不需要了解其他1000名球员的情况(也许您可以使用它们来检查您的二项式假设)。

一旦明确了二项式假设,您的估计将非常简单:3/10。该估计值的方差为通常的p(1-p)/ n = 0.021。

基本上,其他1000名玩家是无关紧要的,除非您认为罢工分配有一些有趣且非二项式的特征(例如,人们玩更多的游戏会变得更好)。

一种更深思熟虑的贝叶斯方法: 或者,如果您有兴趣应用其他参与者的先验知识,并且认为新参与者基本上是同一人口中的新样本,则应该在贝叶斯中考虑它条款

估计玩家的先前分布。为此,您需要查看您的1000个数据点-已经观察到的1000个球员,对于每个球员,您都可以估计他们的罢工概率。这1000个点中的每一个只能取21个值之一(从零到20个罢工中的二十个罢工),您将看到整个字段的分布。如果将这些分数转换为比例(即介于零和一之间),则该分布可能可以通过具有Beta分布的随机变量的概率分布来合理地近似估算。Beta分布完全由两个参数(例如a和b)完全表征,但是因为这些参数与您问过的分布(特定玩家自己的罢工概率)并没有真正的关系,而是更高级别的分布,称它们为超参数。您可以采用与您的问题的要点并不实际相关的多种方式之一,从1000个数据点中得出这些超参数的估计值。

在您完全没有任何有关球员的信息之前,您对他/她的得分得分率的最佳猜测(简称为p)将只是我们刚刚拟合的Beta分布中p的最可能值。

但是,我们拥有有关自己的玩家的数据,而不仅仅是一般人群! 我们相信上帝,所有其他人都必须携带数据(如果我记得在哪里找到的话,我会引用此报价,对不起)。每次我们观察到玩家玩游戏且是否获得罢工,我们都会获得一条新的信息来确定我们对他的比例的估计。

关于贝塔分布作为比例概率分布的一件整洁的事情是,当我们从数据中收集新信息并创建一个新的,经过改进的比例估计时,概率理论可以表明,新的,经过改进的估计也是贝塔系数发行-只是更集中的版本。这是因为在尝试对二项式模型进行估算时,β分布就是先被称为共轭的分布。

也就是说,如果我们观察到n个成功事件中的z个(在这种情况下,有罢工的游戏);先前的分布为beta(a,b);后验分布(是在给定原始1000个数据点的情况下p的概率分布的估计值,并且是十个游戏的新观察结果)为beta(a + z,b + nz)或(在我们的情况下为)beta(a + 3, b + 7)。如您所见,获得的数据越多,a和b的重要性就越小。这种数学很简单,在很多课本中都没那么有趣(无论如何对我来说)。

如果您有R,则可以通过运行下面的代码来查看示例(如果您没有R,则应该获取它-它是免费的,并且可以帮助您解决此类问题。)假设可以用beta(2,5)建模玩家的先前分布-这是我所弥补的。实际上,您可以通过多种方法来估算a和b的数字,而不是仅仅估算2和5,因为我认为曲线看起来不错。

如您所见,如果您运行此程式化示例,给定beta(2,5)的先前分布,则玩家得分得分的概率估计值为0.29,而不是0.30。同样,我们可以创建一个可信区间,坦率地说,它比一个可信区间更直观,更容易解释(请参阅Internet上有关两者之间差异的许多问题和讨论,包括CrossValidated)。

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

然后观察您的新玩家;并为新玩家计算新的后验分布。实际上,这表示“考虑到我们刚刚观察到的情况,我们认为此人最有可能出现在玩家的哪个位置?”


2
我认为这是不正确的。假设在1000人中,绝大多数(99%)的罢工百分比在5%到15%之间,而少数人的罢工百分比高于25%。然后我会说,我们观察到的新球员更有可能真正的命中率低于30%,而只是“幸运”。
Uwat 2012年

好的,很好-我添加了一个编辑功能,可以考虑到这种情况。基本上,您可以很好地说明贝叶斯推理问题。
彼得·埃利斯

@Peter-所有人都很好地争论了。
rolando2 2012年

感谢您的回答。但是,我不太理解您的意思:“您需要实际分配个人的行使价,这可能是某种Beta”。您能否澄清一下?谢谢
Uwat 2012年

谢谢,这是一个非常好的问题,我在答复中大大扩展了我的答案。
彼得·埃利斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.