给定参考人口，估计成功的可能性

假设您有以下情况：

您随着时间的推移观察到1000名保龄球运动员，他们每个人都玩相对较少的游戏（例如1到20）。您指出了每个玩家的罢工百分比超过每个玩家所玩游戏的数量。

一个新的保龄球选手进来，打了10场比赛，得到了3次罢工。

假定任何球员的罢工次数分布为二项式。

我想估计该球员成功的“真实”概率。

请注意以下几点：

这不是现实情况，也不是学校问题，只是一个自省的问题。
我是一名学生，其统计教育水平高于Stats 101课程。我对诸如最大似然估计之类的推论有所了解...所以随时告诉我应该阅读的统计数据领域。
我的问题可能缺少信息，或者如果它对成功概率的分布大致正常是有益的，请告诉我。

非常感谢你

binomial inference

— 乌瓦
source

您认为该玩家的概率与其他1000个玩家的概率之间的关系是什么？换句话说，为什么我们在估计该玩家的概率时会考虑其他1000个？

— rolando2 2012年

我假设玩家的真实罢工百分比实质上是与其他1000个玩家相同的罢工百分比分布。换句话说，这个新球员没有什么特别的，他只是另一个随机球员。希望这是有道理的。

— Uwat 2012年

这是一个很好的例子，说明了惯常主义和贝叶斯推理方法之间的区别。

我的第一个简单化的常客对策： 如果您已经假设罢工的分布是二项式的，那么您不需要了解其他1000名球员的情况（也许您可以使用它们来检查您的二项式假设）。

一旦明确了二项式假设，您的估计将非常简单：3/10。该估计值的方差为通常的p（1-p）/ n = 0.021。

基本上，其他1000名玩家是无关紧要的，除非您认为罢工分配有一些有趣且非二项式的特征（例如，人们玩更多的游戏会变得更好）。

一种更深思熟虑的贝叶斯方法： 或者，如果您有兴趣应用其他参与者的先验知识，并且认为新参与者基本上是同一人口中的新样本，则应该在贝叶斯中考虑它条款。

估计玩家的先前分布。为此，您需要查看您的1000个数据点-已经观察到的1000个球员，对于每个球员，您都可以估计他们的罢工概率。这1000个点中的每一个只能取21个值之一（从零到20个罢工中的二十个罢工），您将看到整个字段的分布。如果将这些分数转换为比例（即介于零和一之间），则该分布可能可以通过具有Beta分布的随机变量的概率分布来合理地近似估算。Beta分布完全由两个参数（例如a和b）完全表征，但是因为这些参数与您问过的分布（特定玩家自己的罢工概率）并没有真正的关系，而是更高级别的分布，称它们为超参数。您可以采用与您的问题的要点并不实际相关的多种方式之一，从1000个数据点中得出这些超参数的估计值。

在您完全没有任何有关球员的信息之前，您对他/她的得分得分率的最佳猜测（简称为p）将只是我们刚刚拟合的Beta分布中p的最可能值。

但是，我们拥有有关自己的玩家的数据，而不仅仅是一般人群！ 我们相信上帝，所有其他人都必须携带数据（如果我记得在哪里找到的话，我会引用此报价，对不起）。每次我们观察到玩家玩游戏且是否获得罢工，我们都会获得一条新的信息来确定我们对他的比例的估计。

关于贝塔分布作为比例概率分布的一件整洁的事情是，当我们从数据中收集新信息并创建一个新的，经过改进的比例估计时，概率理论可以表明，新的，经过改进的估计也是贝塔系数发行-只是更集中的版本。这是因为在尝试对二项式模型进行估算时，β分布就是先被称为共轭的分布。

也就是说，如果我们观察到n个成功事件中的z个（在这种情况下，有罢工的游戏）；先前的分布为beta（a，b）；后验分布（是在给定原始1000个数据点的情况下p的概率分布的估计值，并且是十个游戏的新观察结果）为beta（a + z，b + nz）或（在我们的情况下为）beta（a + 3， b + 7）。如您所见，获得的数据越多，a和b的重要性就越小。这种数学很简单，在很多课本中都没那么有趣（无论如何对我来说）。

如果您有R，则可以通过运行下面的代码来查看示例（如果您没有R，则应该获取它-它是免费的，并且可以帮助您解决此类问题。）假设可以用beta（2,5）建模玩家的先前分布-这是我所弥补的。实际上，您可以通过多种方法来估算a和b的数字，而不是仅仅估算2和5，因为我认为曲线看起来不错。

如您所见，如果您运行此程式化示例，给定beta（2,5）的先前分布，则玩家得分得分的概率估计值为0.29，而不是0.30。同样，我们可以创建一个可信区间，坦率地说，它比一个可信区间更直观，更容易解释（请参阅Internet上有关两者之间差异的许多问题和讨论，包括CrossValidated）。

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

然后观察您的新玩家；并为新玩家计算新的后验分布。实际上，这表示“考虑到我们刚刚观察到的情况，我们认为此人最有可能出现在玩家的哪个位置？”

— 彼得·埃利斯
source

我认为这是不正确的。假设在1000人中，绝大多数（99％）的罢工百分比在5％到15％之间，而少数人的罢工百分比高于25％。然后我会说，我们观察到的新球员更有可能真正的命中率低于30％，而只是“幸运”。

— Uwat 2012年

好的，很好-我添加了一个编辑功能，可以考虑到这种情况。基本上，您可以很好地说明贝叶斯推理问题。

— 彼得·埃利斯

@Peter-所有人都很好地争论了。

— rolando2 2012年

感谢您的回答。但是，我不太理解您的意思：“您需要实际分配个人的行使价，这可能是某种Beta”。您能否澄清一下？谢谢

— Uwat 2012年

谢谢，这是一个非常好的问题，我在答复中大大扩展了我的答案。

— 彼得·埃利斯