伯努利试验或乔治·卢卡斯电影实验获得K成功


23

我正在阅读“醉汉小径”,因此无法理解其中的一个故事。

它去了:

想象一下,乔治·卢卡斯(George Lucas)拍了一部新的《星球大战》(Star Wars)电影,并且在一个测试市场上决定进行疯狂的实验。他发行了两部相同的电影:《星球大战:情节A》和《星球大战:情节B》。每部电影都有自己的营销活动和发行时间表,相应的细节相同,只是一部电影的预告片和广告说“第A集”,而另一部电影的广告和预告片说“第B集”。

现在我们进行一次竞赛。哪部电影会更受欢迎?假设我们看了前20,000名观众,并记录了他们选择看的电影(忽略了那些顽固的粉丝,他们将同时前往两者,然后坚持认为两者之间存在细微但有意义的差异)。由于电影和他们的营销活动是相同的,因此我们可以用数学方法对游戏进行建模:想象一下将所有观众排成一排,然后依次为每个观众掷硬币。如果硬币降落,则他或她会看到情节A;如果硬币掉落了,那就是第B集。由于硬币有两种上升的机会均等,您可能会认为在这场实验性的票房大战中,每部电影的首映时间应占一半。

但是随机性的数学则相反:主角变化的最可能次数是0,而两部影片中的一部​​将率过20,000个客户的可能性比主角不断跷跷板要高88倍”

我(可能是错误地)将其归因于一个简单的伯努利试验问题,并且必须说我不明白为什么领导者平均不会跷跷板!谁能解释?

Answers:


22

以下是一些R代码,用于模拟George Lucas实验:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

运行它,我们得到如下图像:

在此处输入图片说明

其中A和B之间售出票的差异在y轴上。

接下来,我们运行此类的模拟George Lucas实验。对于每个实验,我们都计算花费的时间的比例,即,向A出售票数大于或等于向B出售票数的排队观众的比例。直观地讲, d说这个比例应该是大约。这是结果的直方图:0 1 / 210,00001/2

在此处输入图片说明

比例为的平均的意义上,预期值是,但是一个不可能的值相比,接近值或。对于大多数实验,大多数情况下差异是正的还是负的!1 / 2 1 / 2 0 11/21/21/201

红色曲线是反正弦分布的密度函数,也称为分布。上图中所示的是一个定理,称为随机游走的第一arscine定律,该定理说,随着简单对称随机游走的步数接近无穷大,花费在以上的时间比例的分布趋向于反正弦分布。此结果的标准参考文献是William Feller 撰写的《概率论及其应用简介》第1卷第III.4节。Beta(1/2,1/2) 00


模拟研究的R代码是

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

谢谢!我安装了R,并想重复您的所有步骤-如何运行10,000个模拟并计算花费的时间比例?
andreister 2012年

@andreister:我编辑了答案,最后添加了仿真代码。希望对你有帮助!
MånsT

谢谢,这非常有用!为了确保我理解这些内容,我根据您的代码制作了pastebin.com/mtRdsPkP-您可以轻拂吗?
andreister 2012年

@andreister:看起来不错!为了回答关于为什么cumsum使用sum电影的原因,而不是想象观众在排队,我们检查他们买了哪部电影的票,一张一张。cumsum给出了部分和的向量,因此第一个元素告诉我们在1个观看者之后A领先/落后多远,第二个元素告诉我们在2个观看者之后A多领先/落后,第3个元素在3个观看者之后等等。如果元素为正,则A在第一个观众之后有更多观众。如果是负数,B已经有更多的观众,如果它是0,他们也有同样数量的观众ii
MånsT

(续)这是我们感兴趣的信息,因为我们想查看领导者是否跷跷板。sum只会将所有1和-1求和,这将为您提供考虑所有 20,000个观看者(即cumsum向量的最后一个元素)后的最终结果。
MånsT

11

1/2tt=13/4t=3t

11

20,000

如果您想计算一些概率,则必须计算类似于不跨越对角线的晶格走动的东西。有一种很棒的组合方法适用于不走这条线的随机游走(以及布朗运动),称为反射原理或反射方法。这是确定加泰罗尼亚语数字的一种方法。这是另外两个应用程序:

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.因此,您可以看到在某个时刻领先的机会(假设您最终以结束大约为。B(10,200,9,800),96%

任何端点(使永不落后)的序列总数为因此,永不落后的概率约为。线索永远不会改变的机会约为潜在顾客更换的平均次数约为。A(20,00010,000)220,000/10,000π.A1100π150π1/89.56


谢谢!不过,在理解您的答案之前,我需要先了解符号!这是什么意思“最终领先10,200-9,800”等,您从哪里得到数字?您如何看待20K模式?
andreister 2012年

值是一个示例。那只是可能的结果之一。您可以对或做相同类型的分析我不认为我说是什么模式。您的引言说:“线索中最可能的更改次数是 ”,这表示模式为。但是,这类似于接近的几何分布。最可能的值为(如果您使用基于的约定),但不太可能。还有许多其他可能性,其概率略低。11 000 - 9 000 10 001 - 9 999 20 000 0 0 p 0 0 010,2009,80011,0009,00010,0019,999.20,00000p000
Douglas Zare 2012年

0

“两部影片中的一部​​将带领所有20,000名顾客的可能性是领先者不断跷跷板的88倍”

用简单的英语来说:其中一部电影早早取得了领先。它必须像第一个客户必须去A或B一样。那部电影保持领先地位的可能性与失去领先地位一样。

听起来的可能性要高88倍,好,不太可能,直到您记住完美的锯切是不可能的。MansT的答案中的图表以图形方式显示,很有趣,不是

旁白:就<buzzword-alert>病毒式行销而言,我个人认为会超过88次</buzzword-alert>。每个人都会问别人他们看到了什么,并且更有可能看同一部电影。他们甚至会下意识地做到这一点:人们更有可能排长队去看东西。也就是说,只要头几个客户之间的随机性造就了领导者,人类心理就会将其保持为领导者:-)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.