从m个人的列表中选择n个人从y个人的列表中随机选择x个人的概率是多少?


10

如果我要从363人中选择232人而不进行替换,那么在此选择的12个人中,有2个人的概率是多少?

这是一场超级比赛的随机抽签,共有363名参赛者获得232个位置。关于选择是否偏向特定的12人小组存在争议。

我最初的计算方法是有232个选择363个可能的选择。十二个列表中任何一个人的组合数是1选择12 + 2选择12 + ... + 11选择12 + 12选择12。因此1选择12 + 2选择12 .... / 232选择363 。最终是一个非常低的数字,显然太低了。

我该如何计算?


1
两个技术要点。首先,由于结果已知,您现在要处理的是可能性而不是概率。第二,假设您有结果,理论上的可能性并不重要。我认为最好采用选择方法:如何选择选择?您需要证明方法的正确性,而不是结果的正确性。
米歇尔2012年

1
为了估计选择概率,米歇尔认为这是一种可能性。这里似乎并非如此。
ub

您在使用超几何RV的简单计算时需要小心,因为抱怨的12个人并不是随机选择的。他们在抱怨,因为他们没有被选中。
盖伊

Answers:


10

我对问题的解释是这样的:假设采样是按照将张白色纸质票据放在广口瓶中进行的,每张纸上标有一个人的名字,然后在充分搅拌广口瓶中的内容后随机取出232张白纸来进行的。事先有12张票被涂成红色。什么是机会正好两个选择的门票是红色的?最多有两张票是红色的机会是什么?36323212

可以获得精确的公式,但是我们不需要做太多的理论工作。取而代之的是,我们只是在从罐子中取出门票时跟踪机会。当它们中的被撤回时,让已经看到i张红色票证的机会写成p i m 。要开始,注意p 0 = 0,如果> 0(你不能有任何的红色门票在开始之前)和p 0 0 = 1一世p一世p一世0=0一世>0p00=1个(可以确定您一开始就没有红票)。现在,在最近的一次抽奖中,门票是红色的还是不是红色的。在第一种情况下,我们先前有机会准确地看到i 1张红色门票。然后,我们碰巧从剩余的363 m + 1张票中抽出一张红色票,到目前为止,我的票数正好是红色。因为我们假设所有彩票在每个阶段都有相等的机会,所以我们以此方式抽出红色的机会是12 i + 1p一世-1个-1个一世-1个363-+1个一世。在另一种情况下,我们有机会 p i m 1 在之前的 m 1次抽奖中准确获得 i张红牌,而在下一次抽奖中向样本添加其他红票的机会为363 - + 1 - 12 + /363 - + 1 12-一世+1个/363-+1个p一世-1个一世-1个363-+1个-12+一世/363-+1个。从那里,使用基本的概率公理(即,两个互斥情况的机会相加,而条件机会相乘),

p一世=p一世-1个-1个12-一世+1个+p一世-1个363-+1个-12+一世363-+1个

我们递归重复此计算,铺设的值的三角形阵列0 120 232。一点计算之后,我们得到p 2 232 0.000849884p 0 232 + p 1 232 + p 2 232 p一世0一世120232p22320.000849884,回答问题的两个版本。这些数字很小:无论您怎么看,它们都是非常罕见的事件(少于千分之一)。p0232+p1个232+p22320.000934314

仔细检查一下,我用计算机进行了1,000,000次此练习。在这些实验的932 = 0.000932中,观察到2张或更少的红色票据。这非常接近计算结果,因为期望值 934.3中的采样波动约为30(向上或向下)。这是在R中进行仿真的方式:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

这次,由于实验是随机的,结果有所变化:在百万次试验中的948次中,观察到两个或更少的红牌。这仍然与理论结果相符。)

结论是,232张票中有两张或更少是红色的可能性很小。 如果您确实有363个人中的232个样本,则此结果有力地表明,“罐中票”模型不是对如何获取样本的正确描述。 其他解释包括(a)使红色票证更难以从广口瓶中拿走(对它们有“偏见”),以及(b)在观察到样本对票证进行了着色(事后数据监听,表示有任何偏见)。

行动中的解释(b)的一个示例是一个臭名昭著的谋杀审判的陪审团。假设其中包括363人。在那个游泳池之外,法院采访了其中的232人。一位雄心勃勃的报纸记者精心审查了泳池中每个人的简历,并注意到363名中有12名是金鱼爱好者,但其中只有两名接受了采访。法院对金鱼鸽友有偏见吗?可能不是。


注意:在模拟中,标记了最前面的12个“票”并不重要,因为所有采样都是随机进行的,无需替换(通过sample)。实际上,在每次迭代中,每次sample调用时都会彻底混合票证,然后再撤回232张票证。
ub

2
天哪-这实际上不是我期望的结果。感谢您的周密工作和良好的解释。(奇怪的是,我实际上在最早开发R的奥克兰大学进行了一些统计培训)
Sarge 2012年

10

@whuber给出了详尽的解释,我只想指出有一种对应于这种情况的标准统计分布:超几何分布。因此,您可以直接在R中获得任何这样的概率:

在选择的12个中恰好有2个的概率:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

在12个选定的概率中,有2个或更少的概率:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1谢谢。我应该提到这种联系。超几何分布经典地出现在采样重采样实验中。这12个特定的人(我的“红票”)就像被捕获,标记并扔回泳池的鱼。232的样本就像随后被捕获的那组鱼一样。超几何分布描述了捕获的鱼的频率。
ub

0

由于不是随机选择组(“在抽奖前将12条鱼涂成红色”),因此赔率比用简单的超几何分布计算的几率要高得多。

根据问题的描述,我们正在测试抽奖中的欺诈行为。一个特定的12人小组抱怨说只有2人被选中,而预期的人数是232/363〜2/3 = 8。

我们真正需要计算的是“ 没有大小12组选择2个成员” 的几率。至少一个小组有2个或更少的几率(因此会抱怨平局的公平性)要高得多。

当我运行此模拟并检查30个(= 360/12)组中没有多少个试验有2个或更少的选择时,我获得了大约2.3%的机会。1:42低但是不是不可能。

您仍应检查抽奖的过程,因为它可能会偏向特定人群。他们可能聚在一起,以较小的概率(例如,第一个或最后一个数字)或抽奖程序中的任何因变量收到抽奖的范围。但是,如果您在程序中没有发现任何缺陷,则可以返回1:42的赔率,这对团队来说真是倒霉。


很好的一点是,但(a)当然不是每个可能的12个成员组都具有足够的相似性,并且(b)并非所有具有足够相似性的组都具有正好12个成员。
zbicyclist 2012年

@zbicyclist,我并不认为计算正确。我想提出一个合理的怀疑(因为我们处于欺诈检测的法律领域),抽签是无罪的。
盖伊
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.