如果我要从363人中选择232人而不进行替换,那么在此选择的12个人中,有2个人的概率是多少?
这是一场超级比赛的随机抽签,共有363名参赛者获得232个位置。关于选择是否偏向特定的12人小组存在争议。
我最初的计算方法是有232个选择363个可能的选择。十二个列表中任何一个人的组合数是1选择12 + 2选择12 + ... + 11选择12 + 12选择12。因此1选择12 + 2选择12 .... / 232选择363 。最终是一个非常低的数字,显然太低了。
我该如何计算?
如果我要从363人中选择232人而不进行替换,那么在此选择的12个人中,有2个人的概率是多少?
这是一场超级比赛的随机抽签,共有363名参赛者获得232个位置。关于选择是否偏向特定的12人小组存在争议。
我最初的计算方法是有232个选择363个可能的选择。十二个列表中任何一个人的组合数是1选择12 + 2选择12 + ... + 11选择12 + 12选择12。因此1选择12 + 2选择12 .... / 232选择363 。最终是一个非常低的数字,显然太低了。
我该如何计算?
Answers:
我对问题的解释是这样的:假设采样是按照将张白色纸质票据放在广口瓶中进行的,每张纸上标有一个人的名字,然后在充分搅拌广口瓶中的内容后随机取出232张白纸来进行的。事先有12张票被涂成红色。什么是机会正好两个选择的门票是红色的?最多有两张票是红色的机会是什么?
可以获得精确的公式,但是我们不需要做太多的理论工作。取而代之的是,我们只是在从罐子中取出门票时跟踪机会。当它们中的被撤回时,让已经看到i张红色票证的机会写成p (i ,m )。要开始,注意p (我,0 )= 0,如果我> 0(你不能有任何的红色门票在开始之前)和p (0 ,0 )= 1(可以确定您一开始就没有红票)。现在,在最近的一次抽奖中,门票是红色的还是不是红色的。在第一种情况下,我们先前有机会准确地看到i − 1张红色门票。然后,我们碰巧从剩余的363 − m + 1张票中抽出一张红色票,到目前为止,我的票数正好是红色。因为我们假设所有彩票在每个阶段都有相等的机会,所以我们以此方式抽出红色的机会是(12 − i + 1。在另一种情况下,我们有机会 p (i ,m − 1 )在之前的 m − 1次抽奖中准确获得 i张红牌,而在下一次抽奖中不向样本添加其他红票的机会为(363 - 米+ 1 - 12 + 我)/(363 - 米+ 1 )。从那里,使用基本的概率公理(即,两个互斥情况的机会相加,而条件机会相乘),
我们递归重复此计算,铺设的值的三角形阵列为0 ≤ 我≤ 12和0 ≤ 米≤ 232。一点计算之后,我们得到p (2 ,232 )≈ 0.000849884和p (0 ,232 )+ p (1 ,232 )+ p (2 ,232 )≈,回答问题的两个版本。这些数字很小:无论您怎么看,它们都是非常罕见的事件(少于千分之一)。
仔细检查一下,我用计算机进行了1,000,000次此练习。在这些实验的932 = 0.000932中,观察到2张或更少的红色票据。这非常接近计算结果,因为期望值 934.3中的采样波动约为30(向上或向下)。这是在R中进行仿真的方式:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
这次,由于实验是随机的,结果有所变化:在百万次试验中的948次中,观察到两个或更少的红牌。这仍然与理论结果相符。)
结论是,232张票中有两张或更少是红色的可能性很小。 如果您确实有363个人中的232个样本,则此结果有力地表明,“罐中票”模型不是对如何获取样本的正确描述。 其他解释包括(a)使红色票证更难以从广口瓶中拿走(对它们有“偏见”),以及(b)在观察到样本后对票证进行了着色(事后数据监听,不表示有任何偏见)。
行动中的解释(b)的一个示例是一个臭名昭著的谋杀审判的陪审团。假设其中包括363人。在那个游泳池之外,法院采访了其中的232人。一位雄心勃勃的报纸记者精心审查了泳池中每个人的简历,并注意到363名中有12名是金鱼爱好者,但其中只有两名接受了采访。法院对金鱼鸽友有偏见吗?可能不是。
sample
)。实际上,在每次迭代中,每次sample
调用时都会彻底混合票证,然后再撤回232张票证。
@whuber给出了详尽的解释,我只想指出有一种对应于这种情况的标准统计分布:超几何分布。因此,您可以直接在R中获得任何这样的概率:
在选择的12个中恰好有2个的概率:
> dhyper(2, 12, 363-12, 232)
[1] 0.0008498838
在12个选定的概率中,有2个或更少的概率:
> phyper(2, 12, 363-12, 232)
[1] 0.000934314
由于不是随机选择组(“在抽奖前将12条鱼涂成红色”),因此赔率比用简单的超几何分布计算的几率要高得多。
根据问题的描述,我们正在测试抽奖中的欺诈行为。一个特定的12人小组抱怨说只有2人被选中,而预期的人数是232/363〜2/3 = 8。
我们真正需要计算的是“ 没有大小12组选择2个成员” 的几率。至少一个小组有2个或更少的几率(因此会抱怨平局的公平性)要高得多。
当我运行此模拟并检查30个(= 360/12)组中没有多少个试验有2个或更少的选择时,我获得了大约2.3%的机会。1:42低但是不是不可能。
您仍应检查抽奖的过程,因为它可能会偏向特定人群。他们可能聚在一起,以较小的概率(例如,第一个或最后一个数字)或抽奖程序中的任何因变量收到抽奖的范围。但是,如果您在程序中没有发现任何缺陷,则可以返回1:42的赔率,这对团队来说真是倒霉。