统计概念可以解释为什么随着翻转次数的增加,您翻转头部和尾部的次数变少的可能性为何?


28

我正在通过阅读几本书并编写一些代码来学习概率和统计数据,并且在模拟硬币翻转时,我发现有些东西使我感到有些惊讶,这与个人的天真直觉有些相反。如果您翻转公平的硬币次首脑尾巴朝着收敛为1的比例增加,正如你所期望的。但在另一方面,由于nnn增加,您似乎不太可能翻转正好相同的头数,而不会翻转尾数,从而获得正好为 1 的比率。

例如(我程序的一些输出)

For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS)
For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS)
For 1000 flips, it took 11 experiments until we got an exact match (500 HEADS, 500 TAILS)
For 5000 flips, it took 31 experiments until we got an exact match (2500 HEADS, 2500 TAILS)
For 10000 flips, it took 38 experiments until we got an exact match (5000 HEADS, 5000 TAILS)
For 20000 flips, it took 69 experiments until we got an exact match (10000 HEADS, 10000 TAILS)
For 80000 flips, it took 5 experiments until we got an exact match (40000 HEADS, 40000 TAILS)
For 100000 flips, it took 86 experiments until we got an exact match (50000 HEADS, 50000 TAILS)
For 200000 flips, it took 96 experiments until we got an exact match (100000 HEADS, 100000 TAILS)
For 500000 flips, it took 637 experiments until we got an exact match (250000 HEADS, 250000 TAILS)
For 1000000 flips, it took 3009 experiments until we got an exact match (500000 HEADS, 500000 TAILS)

我的问题是:统计/概率论中是否有解释这一点的概念/原理?如果是这样,那是什么原理/概念?

如果有人对我的生成方式感兴趣,请链接到代码

-编辑-

对于它的价值,这是我早些时候向自己解释的方式。如果将枚硬币投掷nn次并计算正面数,则基本上是在生成随机数。同样,如果您做同样的事情并计算尾数,那么您还将生成一个随机数。因此,如果同时计算两者,则实际上是在生成两个随机数,并且随着n变大,随机数也变大。并且,您生成的随机数越大,它们彼此“错失”的机会就越大。有趣的是,这两个数字实际上在某种意义上是相互联系的,它们的比例随着变大而趋向于一个,即使每个数字都是随机的。也许只有我一个人,但是我发现它很整洁。


您是否寻求直观或数学解释?
Glen_b-恢复莫妮卡

1
两者都是。我想我有点明白一个直观的感觉的原因,但我想了解它背后的形式推理。
mindcrime 2015年

1
您知道如何计算二项式概率并将其应用于这种情况吗?如果不是,请查找并进行计算。
Mark L. Stone

哇,这个问题有多个好的答案。我不得不接受一个而不是另一个感到很难过。我想说的是,我感谢所有的答案,也感谢所有花时间分享对此见解的人。
mindcrime 2015年

Answers:


31

请注意,正面的数量和背面的数量相等的情况与“正好是获得正面的时间的一半”相同。因此,让我们坚持计数头的数量,看看它是否是投掷次数的一半,或者等效地将头的比例与0.5进行比较。

翻转的次数越多,您可以拥有的可能的头数就越多-分布变得更加分散(例如,随着抛掷次数的增加,包含95%概率的头数的间隔将越来越宽) ,所以随着我们掷出更多的球,正好半个头的可能性会下降。

相应地,正面的比例将具有更多可能的值;看到这里,我们从100扔到200扔:

在此处输入图片说明

抛100次,我们可以观察到0.49头或0.50头或0.51头的比例(依此类推-但在这些值之间什么都没有),但是抛200次,我们可以观察到0.49或0.495或0.50或0.505或0.510-概率具有更多“可覆盖”的值,因此每个值都倾向于获得较小的份额。

考虑一下,您有折腾,并且有几率p i得到i的打击(我们知道这些概率,但是对于这部分来说并不重要),然后再增加两次nt折腾。在2个Ñ掷,Ñ头是最可能的结果(p Ñ > p ñ ± 12npii2ññpñ>pñ±1个和从那里向下)。

2 n + 2中拥有个头的机会是什么ñ+1个2ñ+2掷掷?

(将这些概率标记为这样我们就不会将它们与先前的概率混淆;也应让P(HH)为下两次抛掷中“头,头”的概率,依此类推)q

qñ+1个=pñ-1个PHH+pñPHŤ+PŤH+pñ+1个PŤŤ

<pnP(HH)+pn(P(HT)+P(TH))+pnP(TT)=pn

例如,如果您再添加两个掷硬币,则中间值的概率自然会下降,因为它会将最可能的(中间)值与两侧较小值的平均值进行平均)

所以只要你舒适的高峰将在中间(对于),正好一半正面的概率必须以降低ñ上升。2n=2,4,6,...n


实际上,我们可以证明,对于较大的p n1成正比地减小npn(毫不奇怪,因为标准化头数的分布接近正态性,并且头比例的变化随n减小)。1nn


根据要求,以下是R代码,它产生的结果与上述图解相似:

 x1 = 25:75
 x2 = 50:150
 plot(x1 / 100, dbinom(x1, 100, 0.5), type = "h",
       main = "Proportion of heads in 100 and 200 tosses",
       xlab = "Proportion of heads",
       ylab = "probability")
 points(x2 / 200, dbinom(x2, 200, 0.5), type = "h", col = 3)

1
我同意上述@RustyStatistician关于图形的1000个单词的含义。额外的代码指针功劳。
TomRoche 2015年

很棒的图和解释!

@Tom我包含的代码可以执行所有操作,除了将标题中的“ 200”变为绿色。
Glen_b-恢复莫妮卡

1
@Glen_b感谢您发表又一篇精彩的文章,以及分享代码行的慷慨大方。美丽的情节!很难接受,但是我在您的文章中对该概念的数学表达有疑问,尤其是大写P
Antoni Parellada 2015年

1
@Antoni 仅仅意味着“在另外两次抛掷中获得'Head,Head'的概率”。要在2n + 2掷中获得n + 1头,则必须经过2n掷,要么具有n-1头(然后被抛2头)或n头(然后被抛1头)或n + 1头(然后被抛) 0个头)。P(HH)
Glen_b-恢复莫妮卡

19

好吧,我们知道大数定律可以保证实验的第一个结论,即,如果您将公平硬币翻转次,则正面与反面的比率将收敛为1,即nnn增加。

因此,那里没有问题。但是,在这种情况下,关于大数定律的所有信息都告诉我们。

但是现在,让我们更直观地考虑这个问题。想抛硬币小的次数,例如:n=2,4,8,10

当您两次掷硬币时,即,请考虑两次掷硬币的可能情况。(这里H代表头,T代表尾)。在拳头翻转你本来可以^ h和第二翻转你本来可以牛逼。但这只是两次翻转的一种方式。您也可能已经在第一个翻转T和第二个翻转H上,以及所有其他可能的组合上。因此,在一天结束时,当您掷出2个硬币时,您可以在两次掷硬币中看到的可能组合为 S = { H H H Tn=2HTHTTH硬币。 ,因此有4种可能的 n = 2翻转情形

S={HH,HT,TH,TT}
n=2

如果您要掷出4个硬币,那么可能看到的组合数将为 硬币的。 ,因此存在16种可能的翻转 n = 4的情况

S={HHHH,HHHT,HHTH,HTHH,THHH,HHTT,HTTH,TTHH,THHT,THTH,HTHT,HTTT,THTT,TTHT,TTTH,TTTT}
n=4

翻转n=8硬币可得到256个组合。

翻转n=10硬币可得到1,024个组合。

特别是,翻转任意数量的硬币会导致2 nn2n可能的组合。

现在,让我们尝试从概率问题的角度出发。回顾一下的情况,我们知道获得完全相同数量的头和尾巴的概率(即,您称其正比为1)为P r 正比为 1 = 2n=2n=4时,我们知道获得完全相同的额头和尾巴的概率为 Pr正比1=6

Pr(Ratio of exactly 1)=24=0.5
n=4
Pr(Ratio of exactly 1)=616=0.375

而在一般情况下,n趋于增大,我们得到的头和尾巴数量完全相同的概率为0。

换句话说,当,我们有 P r 正比1 0n

P[R正比10

因此,回答您的问题。确实,您所观察到的只是以下事实的结果:与之相等的组合数量相比,正面和反面的数量不相等的硬币翻转组合将会更多。



正如@Mark L.Stone所建议的,如果您对二项式公式和二项式随机变量感到满意,则可以使用它来显示相同​​的参数。

n次抛掷公平硬币时记录的正面。我们可以把X为一个随机变量从二项式分布来了,即,X Ñ Ñ p = 0.5 (这里我们假定p = 0.5,因为我们正在处理一个公平的硬币),然后恰好得到的概率正面的数量与背面的数量相同(即,正比为1)为XñXX一世ññp=0.5p=0.5

P[R正比1=P[RX=ñ2=ññ/20.5ñ/20.5ñ-ñ/2=ññ/20.5ñ

现在,再次,作为趋于变大,上述表达对0,因为往往 ññnññ/20.5ñ0ñ


2
0.5ñ0ñññ/20.5ñ0ñ0.5ñ0

@Glen_b我的积分不足,无法评论您的帖子,但是真棒!

感谢@RustyStatistician,这会有所帮助。您的解释的第一部分几乎与我的想法相符,但是我的统计数据还远远不够,还不知道如何使用二项分布进行求解。我基本上只读过我的书,没有解决任何问题,现在我要从头开始,写代码来探索材料的各个方面。
mindcrime 2015年

@mindcrime听起来很棒!很高兴我能帮上忙。

5

参见帕斯卡的三角形

硬币翻转结果的可能性由底行的数字表示。头和尾相等的结果是中间数。随着树的变大(即更多的翻转),中间的数字在底行总和中所占的比例较小。



1

当头与尾的比率收敛到1时,可能的数字范围会变宽。(我在编数字)。假设100投掷,您有90%的机率是90%。那是90%的人可获得45至55个头。磁头数量的11种可能性。大约有9%的人获得了相等数量的头和尾。

假设10,000投掷,您有95%的机率是49%至51%的机率。因此该比例已经接近1。但是现在您的头数在4,900至5,100之间。201种可能性。相等数字的机会大约只有0.5%。

凭借一百万次的投篮,您肯定会拥有49.9%到50.1%的正面得分。范围从499,000到501,000。2,001种可能性。现在机率降低到0.05%。

好了,数学就算了。但是,这应该使您对“为什么”有所了解。即使比率接近于1,可能性的数量也会增加,因此恰好碰到一半的头,一半的尾巴的可能性越来越小。

另一个实际效果:在实践中,您不可能有投掷硬币的概率恰好是 50%的硬币。如果您有非常好的硬币,可能是49.99371%。对于少量的投掷,这没有什么区别。对于较大的数字,正面的百分比将收敛到49.99371%,而不是50%。如果投掷次数足够大,则投掷50%或更多的头部将变得非常非常不可能。


0

好,要注意的一件事是,在翻转次数偶数的情况下(否则,正面和背面相等的翻转概率完全为零),最可能的结果将始终是正面翻转次数与尾部翻转次数一样多的结果。

的分布 ñ 翻转由多项式的系数给出

1个+X2ñ
所以甚至 ñ,概率是
pñ=2-ñññ/2

使用斯特林近似 ñ,您到达类似

p1个πñ/2
为了准确的概率 ñ/2 头(和相应的尾巴)翻转 ñ整体翻转。因此,此结果的绝对概率收敛为0,但比大多数其他结果要慢得多,在极端情况下,头为0(或尾为0)翻转2-ñ

2
通过仔细定义表达式中的数量可以改善您的答案。什么是ñ?什么是p
Sycorax说要

0

假设您掷硬币两次。有四种可能的结果:HH,HT,TH和TT。在其中的两种情况下,您的头和尾数相等,因此,您有50%的机会得到相同数量的头和尾。

现在假设您掷硬币4,306,492,102次。您是否期望有50%的机会出现正好 2,153,246,051头和2,153,246,051尾的头?


不,我的直觉告诉我,仅仅因为数字越来越大,获得完全匹配的机会很少。但是我想模拟它只是为了确认我的想法。当我看到结果是这样时,我对为什么是这种方式背后的正式推理很感兴趣。令我感到很有趣的是,所得比率收敛 1,同时变得不太可能恰好是1。
mindcrime 2015年

3
一种思考的方法是 ñ 接近50-50的方式比小尺寸的方式多 ñ
丹尼尔·麦克劳里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.