通过@Glen_b提供的信息,我可以找到答案。使用与问题相同的符号
P(Zk≤x)=∑j=0k+1(k+1j)(−1)j(1−jx)k+,
其中a+=a如果a>0和0,否则。我还对Gumbel(NB:不是 Beta)分布给出了期望和渐近收敛
E(Zk)=1k+1∑i=1k+11i∼log(k+1)k+1,P(Zk≤x)∼exp(−e−(k+1)x+log(k+1)).
证明材料取自参考文献中链接的多个出版物。它们有些冗长,但简单明了。
1.确切分布的证明
令为区间中的IID统一随机变量。通过对它们进行排序,我们获得了表示为的顺序统计信息 。均匀间距定义为,其中且。有序间距是相应的有序统计。感兴趣的变量是。(U1,…,Uk)(0,1)k(U(1),…,U(k))Δi=U(i)−U(i−1)U(0)=0U(k+1)=1Δ(1)≤…≤Δ(k+1)Δ(k+1)
对于固定,我们定义指标变量。通过对称性,随机向量是可交换的,因此大小为的子集的联合分布与的大小相同。第一个。通过扩展产品,我们获得了1我 = 1 { Δ 我 > X }(1 1,... ,1 ķ + 1)Ĵ Ĵx∈(0,1)1i=1{Δi>x}(11,…,1k+1)jj
P(Δ(ķ + 1 )≤x)=E(∏i=1k+1(1−1i))=1+∑j=1k+1(k+1j)(−1)jE(∏i=1j1i).
现在我们证明,这将建立上面给出的分布。我们证明了,因为一般情况也被类似地证明。 j = 2E(∏ji=11i)=(1−jx)k+j=2
E(∏i=121i)=P(Δ1>x∩Δ2>x)=P(Δ1>x)P(Δ2>x|Δ1>x).
如果,则断点在区间内。有条件地在此事件上,断点仍然可以交换,因此第二个断点和第一个断点之间的距离大于的概率与第一个断点和左屏障(在位置)之间的距离的概率相同。大于。所以ķ (X ,1 )X X XΔ1>xk(x,1)xxx
P(Δ2>x|Δ1>x)=P(all points are in (2x,1)∣∣all points are in (x,1)),soP(Δ2>x∩Δ1>x)=P(all points are in (2x,1))=(1−2x)k+.
2.期望
对于有限支持的发行版,我们有
E(X)=∫P(X>x)dx=1−∫P(X≤x)dx.
积分,我们得到Δ(k+1)
E(Δ(k+1))=1k+1∑j=1k+1(k+1j)(−1)j+1j=1k+1∑j=1k+11j.
最后一个等式是谐波数的经典表示形式,我们在下面进行演示。Hi=1+12+…+1i
Hk+1=∫101+x+…+xkdx=∫101−xk+11−xdx.
随着变量并扩展乘积,我们得到u=1−x
Hk+1=∫10∑j=1k+1(k+1j)(−1)j+1uj−1du=∑j=1k+1(k+1j)(−1)j+1j.
3.均匀间距的替代构造
为了获得最大片段的渐近分布,我们将需要展示均匀间距的经典构造,即指数变量除以它们的和。关联的订单统计信息的概率密度 为(U(1),…,U(k))
fU(1),…U(k)(u(1),…,u(k))=k!,0≤u(1)≤…≤u(k+1).
如果我们表示均匀间距,而,我们得到Δi=U(i)−U(i−1)U(0)=0
fΔ1,…Δk(δ1,…,δk)=k!,0≤δi+…+δk≤1.
通过定义,我们得到U(k+1)=1
fΔ1,…Δk+1(δ1,…,δk+1)=k!,δ1+…+δk=1.
现在,让为平均值为1的IID指数随机变量,并令。通过简单地更改变量,我们可以看到(X1,…,Xk+1)S=X1+…+Xk+1
fX1,…Xk,S(x1,…,xk,s)=e−s.
定义,这样,通过更改变量,我们可以获得Yi=Xi/S
fY1,…Yk,S(y1,…,yk,s)=ske−s.
相对于积分此密度,我们得到s
fY1,…Yk,(y1,…,yk)=∫∞0ske−sds=k!,0≤yi+…+yk≤1,and thusfY1,…Yk+1,(y1,…,yk+1)=k!,y1+…+yk+1=1.
因此,在间隔上均匀间距的联合分布与指数随机变量的和除以它们的和相同。我们得出以下等价分布k+1(0,1)k+1
Δ(k+1)≡X(k+1)X1+…+Xk+1.
4.渐近分布
使用上面的等价,我们获得
P((k+1)Δ(k+1)−log(ķ + 1 )≤ X )= P(X(ķ + 1 )≤ (x + 对数(k + 1 ))X1个+ … + Xk + 1k + 1)= P(X(ķ + 1 )− 日志(ķ + 1 )≤ X + (X + 日志(k + 1 ))Tk + 1),
其中。由于且。渐近地,分布与。因为是IID,所以我们有Tk+1=X1+…+Xk+1k+1−1E(Tk+1)=0Var(log(k+1)Tk+1)=(log(k+1))2k+1↓0X(ķ + 1 )− 日志(ķ + 1 )X一世
P(X(ķ + 1 )− 日志(ķ + 1 )≤ X )= P(X1个≤ X + 日志(ķ + 1 ))k + 1= ( 1 − e- X - 日志(ķ + 1 ))k + 1= ( 1 − e− xk + 1)k + 1〜EXP{ − e− x}。
5.图形概述
下图显示了不同值时最大片段的分布。对于 10、20、50,我还叠加了渐近Gumbel分布(细线)。对于较小的值,Gumbel近似值非常差,因此我忽略了它们不会使图片过载。Gumbel近似从。ķķ = 10 ,20 ,50ķķ ≈ 50
6.参考
上面的证明来自参考文献2和3。所引用的文献包含更多结果,例如,任意等级的有序间距的分布,其极限分布以及有序均匀间距的一些替代构造。关键参考资料不易访问,因此我还提供了全文链接。
- Bairamov等。(2010)有序均匀间距的极限结果,统计论文,51:1,pp 227-240
- Holst的(1980)上一棒在随机断裂的片段的长度,J.申请 问题,17,第623-634页
- 派克(1965)的间距,JRSS(B)27:3,第395-449
- Renyi(1953)关于阶数统计理论,Acta math Hung,4,第191-231页