破碎的棍子最大碎片的分布(间距)


21

随机将长度为均匀地分成片段。最长片段的长度分布是什么?k+1

更正式地说,让为IID,让为关联的订单统计信息,我们简单地订购以这样的方式来处理样本。令。(U1,Uk)U(0,1)(U(1),,U(k))U(1)U(2),,U(k)Zk=max(U(1),U(2)U(1),,U(k)U(k1),1U(k))

我对Z_k的分布感兴趣Zk。矩,渐近结果或k \ uparrow \ infty的近似值k也很有趣。


9
这是一个经过深思熟虑的问题。参见R.Pyke (1965),“ Spacings”, JRSS(B)27:3,第395-449页。除非有人击败我,否则我将尝试稍后再添加一些信息。同一位作者也发表了1972年的论文(“ 重新讨论了间距 ”),但我认为您追求的几乎是第一篇。Devroye(1981)中有一些渐近线,“ 均匀间距阶数统计的迭代对数律” 。Probab。9:5,860-867。
Glen_b-恢复莫妮卡

4
这些还应提供一些不错的搜索词,以在需要时找到以后的工作。
Glen_b-恢复莫妮卡

3
这太棒了。第一个参考文献很难找到。对于那些感兴趣的人,我将其放在The Grand Locus上
gui11aume15年

请更正打印错误:Y(k)而不是U(k)
Viktor

谢谢@Viktor!对于这么小的事情,请不要犹豫自己进行编辑(我认为它将由其他用户进行审核以供批准)。
gui11aume17年

Answers:


18

通过@Glen_b提供的信息,我可以找到答案。使用与问题相同的符号

P(Zkx)=j=0k+1(k+1j)(1)j(1jx)+k,

其中a+=a如果a>00,否则。我还对Gumbel(NB不是 Beta)分布给出了期望和渐近收敛

E(Zk)=1k+1i=1k+11ilog(k+1)k+1,P(Zkx)exp(e(k+1)x+log(k+1)).

证明材料取自参考文献中链接的多个出版物。它们有些冗长,但简单明了。

1.确切分布的证明

令为区间中的IID统一随机变量。通过对它们进行排序,我们获得了表示为的顺序统计信息 。均匀间距定义为,其中且。有序间距是相应的有序统计。感兴趣的变量是。(U1,,Uk)(0,1)k(U(1),,U(k))Δi=U(i)U(i1)U(0)=0U(k+1)=1Δ(1)Δ(k+1)Δ(k+1)

对于固定,我们定义指标变量。通过对称性,随机向量是可交换的,因此大小为的子集的联合分布与的大小相同。第一个。通过扩展产品,我们获得了1 = 1 { Δ > X }1 1... 1 ķ + 1Ĵ Ĵx(0,1)1i=1{Δi>x}(11,,1k+1)jj

P(Δ(k+1)x)=E(i=1个k+1个(11i))=1+j=1k+1(k+1j)(1)jE(i=1j1i).

现在我们证明,这将建立上面给出的分布。我们证明了,因为一般情况也被类似地证明。 j = 2E(i=1j1i)=(1jx)+kj=2

E(i=121i)=P(Δ1>xΔ2>x)=P(Δ1>x)P(Δ2>x|Δ1>x).

如果,则断点在区间内。有条件地在此事件上,断点仍然可以交换,因此第二个断点和第一个断点之间的距离大于的概率与第一个断点和左屏障(在位置)之间的距离的概率相同。大于。所以ķ X 1 X X XΔ1>xk(x,1)xxx

P(Δ2>x|Δ1>x)=P(all points are in (2x,1)|all points are in (x,1)),soP(Δ2>xΔ1>x)=P(all points are in (2x,1))=(12x)+k.

2.期望

对于有限支持的发行版,我们有

E(X)=P(X>x)dx=1P(Xx)dx.

积分,我们得到Δ(k+1)

E(Δ(k+1))=1k+1j=1k+1(k+1j)(1)j+1j=1k+1j=1k+11j.

最后一个等式是谐波数的经典表示形式,我们在下面进行演示。Hi=1+12++1i

Hk+1=011+x++xkdx=011xk+11xdx.

随着变量并扩展乘积,我们得到u=1x

Hk+1=01j=1k+1(k+1j)(1)j+1uj1du=j=1k+1(k+1j)(1)j+1j

3.均匀间距的替代构造

为了获得最大片段的渐近分布,我们将需要展示均匀间距的经典构造,即指数变量除以它们的和。关联的订单统计信息的概率密度 为(U(1),,U(k))

fU(1),U(k)(u(1),,u(k))=k!,0u(1)u(k+1).

如果我们表示均匀间距,而,我们得到Δi=U(i)U(i1)U(0)=0

fΔ1,Δk(δ1,,δk)=k!,0δi++δk1.

通过定义,我们得到U(k+1)=1

fΔ1,Δk+1(δ1,,δk+1)=k!,δ1++δk=1.

现在,让为平均值为1的IID指数随机变量,并令。通过简单地更改变量,我们可以看到(X1,,Xk+1)S=X1++Xk+1

fX1,Xk,S(x1,,xk,s)=es.

定义,这样,通过更改变量,我们可以获得Yi=Xi/S

fY1,Yk,S(y1,,yk,s)=skes.

相对于积分此密度,我们得到s

fY1,Yk,(y1,,yk)=0skesds=k!,0yi++yk1,and thusfY1,Yk+1,(y1,,yk+1)=k!,y1++yk+1=1.

因此,在间隔上均匀间距的联合分布与指数随机变量的和除以它们的和相同。我们得出以下等价分布k+1(0,1)k+1

Δ(k+1)X(k+1)X1++Xk+1.

4.渐近分布

使用上面的等价,我们获得

Pķ+1个Δķ+1个-日志ķ+1个X=PXķ+1个X+日志ķ+1个X1个++Xķ+1个ķ+1个=PXķ+1个-日志ķ+1个X+X+日志ķ+1个Ťķ+1个

其中。由于且。渐近地,分布与。因为是IID,所以我们有Tk+1=X1++Xk+1k+11E(Tk+1)=0Var(log(k+1)Tk+1)=(log(k+1))2k+10Xķ+1个-日志ķ+1个X一世

PXķ+1个-日志ķ+1个X=PX1个X+日志ķ+1个ķ+1个=1个-Ë-X-日志ķ+1个ķ+1个=1个-Ë-Xķ+1个ķ+1个经验值{-Ë-X}

5.图形概述

下图显示了不同值时最大片段的分布。对于 10、20、50,我还叠加了渐近Gumbel分布(细线)。对于较小的值,Gumbel近似值非常差,因此我忽略了它们不会使图片过载。Gumbel近似从。ķķ=102050ķķ50

分配一根破碎的棍子的最大碎片

6.参考

上面的证明来自参考文献2和3。所引用的文献包含更多结果,例如,任意等级的有序间距的分布,其极限分布以及有序均匀间距的一些替代构造。关键参考资料不易访问,因此我还提供了全文链接。

  1. Bairamov等。(2010)有序均匀间距的极限结果,统计论文,51:1,pp 227-240
  2. Holst的(1980)上一棒在随机断裂的片段的长度,J.申请 问题,17,第623-634页
  3. 派克(1965)的间距,JRSS(B)27:3,第395-449
  4. Renyi(1953)关于阶数统计理论,Acta math Hung,4,第191-231页

辉煌。顺便说一句,是否有对渐近性?Ëžķ2
阿米尔·萨吉夫

@AmirSagiv,这是一个很好的问题。我快速浏览了参考文献,但找不到。我也无法适应上面的证明。这使我意识到我不知道Gumbel的平方的分布是什么。也许是一个不错的起点?
gui11aume18年


1
@AmirSagiv这是一个很好的帖子。由于某种原因,我误解了您的问题,并认为您对的渐近分布很感兴趣(即使您的评论很清楚),因此上面的评论不太相关。žķ2
gui11aume18年

3

这不是一个完整的答案,但是我做了一些快速的模拟,这是我得到的: 最长片段的直方图

由于iid均匀分布的顺序统计信息是beta wiki,因此这看起来非常像beta,并且有点道理。

这可能会为导出生成的pdf提供一些起点。

如果得到最终的封闭解决方案,我将进行更新。

干杯!


还有一两件事,直方图的增加k没有大幅变化,除了获得形状“压扁”接近于0
利马

1
感谢您对@Lima的想法(欢迎使用Cross Validated)。我认为您的答案可以改善。首先,我将避免发表没有证据的陈述。如果这是不正确的,则您可能会将看到此线索的人员置于错误的轨道上。其次,我将记录您的工作。没有您使用的值或代码,该图就无济于事。最后,我将编辑答案并删除所有未直接回答问题的内容。ķ
gui11aume15年

1
感谢您的建议。它们在堆栈交换之外是有效的,我会记住使用它们。
利马2015年

1

我为2005年在意大利锡耶纳(Siena)的一次会议提供了答案。论文(2006)在我的网站上(pdf)呈现。所有间距(最小到最大)的确切分布在第75和76页上。

我希望在2016年9月于曼彻斯特(英国)举行的RSS会议上就此主题作一个演讲。


2
欢迎来到该网站。我们正在尝试以问题和解答的形式建立永久的高质量统计信息存储库。因此,由于linkrot,我们对仅链接的答案保持警惕。您可以在链接上发布完整的引文和信息摘要,以防万一它消失了?另外,请不要在此处签名您的帖子。每个帖子都有指向您的用户页面的链接,您可以在其中发布该信息。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.