这是一个很好的例子,说明了惯常主义和贝叶斯推理方法之间的区别。
我的第一个简单化的常客对策:
如果您已经假设罢工的分布是二项式的,那么您不需要了解其他1000名球员的情况(也许您可以使用它们来检查您的二项式假设)。
一旦明确了二项式假设,您的估计将非常简单:3/10。该估计值的方差为通常的p(1-p)/ n = 0.021。
基本上,其他1000名玩家是无关紧要的,除非您认为罢工分配有一些有趣且非二项式的特征(例如,人们玩更多的游戏会变得更好)。
一种更深思熟虑的贝叶斯方法:
或者,如果您有兴趣应用其他参与者的先验知识,并且认为新参与者基本上是同一人口中的新样本,则应该在贝叶斯中考虑它条款。
估计玩家的先前分布。为此,您需要查看您的1000个数据点-已经观察到的1000个球员,对于每个球员,您都可以估计他们的罢工概率。这1000个点中的每一个只能取21个值之一(从零到20个罢工中的二十个罢工),您将看到整个字段的分布。如果将这些分数转换为比例(即介于零和一之间),则该分布可能可以通过具有Beta分布的随机变量的概率分布来合理地近似估算。Beta分布完全由两个参数(例如a和b)完全表征,但是因为这些参数与您问过的分布(特定玩家自己的罢工概率)并没有真正的关系,而是更高级别的分布,称它们为超参数。您可以采用与您的问题的要点并不实际相关的多种方式之一,从1000个数据点中得出这些超参数的估计值。
在您完全没有任何有关球员的信息之前,您对他/她的得分得分率的最佳猜测(简称为p)将只是我们刚刚拟合的Beta分布中p的最可能值。
但是,我们拥有有关自己的玩家的数据,而不仅仅是一般人群! 我们相信上帝,所有其他人都必须携带数据(如果我记得在哪里找到的话,我会引用此报价,对不起)。每次我们观察到玩家玩游戏且是否获得罢工,我们都会获得一条新的信息来确定我们对他的比例的估计。
关于贝塔分布作为比例概率分布的一件整洁的事情是,当我们从数据中收集新信息并创建一个新的,经过改进的比例估计时,概率理论可以表明,新的,经过改进的估计也是贝塔系数发行-只是更集中的版本。这是因为在尝试对二项式模型进行估算时,β分布就是先被称为共轭的分布。
也就是说,如果我们观察到n个成功事件中的z个(在这种情况下,有罢工的游戏);先前的分布为beta(a,b);后验分布(是在给定原始1000个数据点的情况下p的概率分布的估计值,并且是十个游戏的新观察结果)为beta(a + z,b + nz)或(在我们的情况下为)beta(a + 3, b + 7)。如您所见,获得的数据越多,a和b的重要性就越小。这种数学很简单,在很多课本中都没那么有趣(无论如何对我来说)。
如果您有R,则可以通过运行下面的代码来查看示例(如果您没有R,则应该获取它-它是免费的,并且可以帮助您解决此类问题。)假设可以用beta(2,5)建模玩家的先前分布-这是我所弥补的。实际上,您可以通过多种方法来估算a和b的数字,而不是仅仅估算2和5,因为我认为曲线看起来不错。
如您所见,如果您运行此程式化示例,给定beta(2,5)的先前分布,则玩家得分得分的概率估计值为0.29,而不是0.30。同样,我们可以创建一个可信区间,坦率地说,它比一个可信区间更直观,更容易解释(请参阅Internet上有关两者之间差异的许多问题和讨论,包括CrossValidated)。
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
然后观察您的新玩家;并为新玩家计算新的后验分布。实际上,这表示“考虑到我们刚刚观察到的情况,我们认为此人最有可能出现在玩家的哪个位置?”