简短的答案:
基本上,它更有说服力有600出1000,超过60%的10,因为,给予同等的喜好很远更有可能为6出10〜随机偶然发生。
让我们做一个假设-偏爱桔子和苹果的比例实际上是相等的(因此,每个占50%)。将此称为零假设。给定这些相等的概率,两个结果的可能性为:
- 给定一个10个人的样本,有38%的机会随机抽取6个或更多喜欢橙子的人的样本(这并不是很不可能)。
- 以1000人为样本,十亿分之一的人中有600人或以上的人更喜欢橙子的可能性不到十亿分之一。
(为简单起见,我假设从中抽取了无限数量的样本)。
一个简单的推导
得出此结果的一种方法是简单地列出人们可以在我们的样本中合并的潜在方式:
对于十个人来说,这很容易:
考虑从无限人群中随机抽取10个人的样本,这些人群对苹果或橙子的偏好相同。在偏好相同的情况下,轻松列出10个人的所有潜在组合很容易:
这是完整列表。
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r是结果数(喜欢橙子的人),C是许多人喜欢橙子的可能方式的数目,p是我们样本中许多人喜欢橙子的结果离散概率。
(p只是C除以组合总数。注意,总共有1024种方式排列这两个首选项(即2乘以10的幂)。
- 例如,只有10人(r = 10)的方法(一个样本)才能全部喜欢橙子。对于所有喜欢苹果的人来说都是一样(r = 0)。
- 有10种不同的组合,导致其中9种更喜欢橘子。(每个样品中都有一个不同的人喜欢苹果)。
- 有45个样本(组合),其中2人更喜欢苹果等。
(一般我们谈论ňC R结果的组合[R从样本ñ的人。还有,你可以用它来验证这些号码在线计算器。)
此列表使我们可以使用除法给出上述概率。有21%的机会让样本中的6个人更喜欢橘子(1024个组合中的210个)。在我们的样本中获得六个或更多人的机会是38%(六个或更多人的所有样本的总和,即1024个组合中的386个)。
在图形上,概率如下所示:
随着数量的增加,潜在组合的数量迅速增加。
对于仅20个人的样本,就有1,048,576个可能的样本,所有样本的可能性均等。(注意:下面仅显示第二个组合)。
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
仍然只有一个样本,所有20个人都喜欢橙子。具有混合结果的组合的可能性更大,这仅仅是因为样本中的人员还有更多的组合方法。
有偏见的样本不太可能出现,只是因为可以产生这些样本的人员组合较少:
每个样本只有20个人,因此样本中有60%或更多(12或更多)的人更喜欢橙子的累积概率下降到仅25%。
可以看出概率分布变得越来越小:
有1000人,人数庞大
我们可以将上述示例扩展到更大的样本(但是数字增长得太快,以至于无法列出所有组合),而是我计算了R中的概率:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
在1000人中有600个或更多的人喜欢橘子的累积概率仅为1.364232e-10。
现在,概率分布更加集中在中心周围:
[
(例如,要计算出1000人中喜欢使用橙子的dbinom(600, 1000, prob=0.5)
人中有600人的概率等于4.633908e-11,而600人或以上的人的概率为1-pbinom(599, 1000, prob=0.5)
1.364232e-10(小于十亿分之一)。