挑逗:从统一的[0,1]分布得出的iid序列的预期长度是单调增加的吗?


28

这是定量分析师职位的面试问题,在此报告。假设我们从均匀的分布绘制并且绘制为iid,则单调递增分布的预期长度是多少?即,如果当前绘制小于或等于上一个绘制,我们将停止绘制。[0,1]

我得到了前几个: \ Pr (\ text {length} = 2)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \,\ mathrm {d} x_2 \,\ mathrm {d} x_1 = 1/3 \ Pr(\ text {length} = 3)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_ {x_2} ^ 1 \ int_0 ^ {x_3} \ mathrm {d} x_4 \,\ mathrm { d} x_3 \,\ mathrm {d} x_2 \,\ mathrm {d} x_1 = 1/8

Pr(length=1)=010x1dx2dx1=1/2
Pr(length=2)=01x110x2dx3dx2dx1=1/3
Pr(length=3)=01x11x210x3dx4dx3dx2dx1=1/8

但是我发现计算这些嵌套积分变得越来越困难,而且我也没有将“技巧”推广到Pr(length=n)。我知道最终答案是结构化的

E(length)=n=1nPr(length=n)

关于如何回答这个问题有什么想法吗?

Answers:


37

以下是解决此问题的一些一般提示:

您有一系列连续的IID随机变量,这意味着它们是可交换的。这意味着对于前n值获得特定顺序的可能性意味着什么?基于此,对于前n值获得递增顺序的概率是多少?可以解决这一问题而无需整合基础随机变量的分布。如果做得好,您将可以在不假设均一分布的情况下得出答案-即,您将获得适用于任何可交换的连续随机变量序列的答案。


这是完整的解决方案(不要自己看这个问题):

令为独立连续随机变量的序列,令是序列开始处的递增元素数。由于这些是连续可交换的随机变量,因此它们几乎肯定彼此不相等,并且任何排序的可能性均相等,因此我们具有: (请注意,此结果适用于任何连续随机变量的IID序列;它们不必具有均匀的分布。)因此,随机变量具有概率质量函数Ñ 最大{ Ñ Ñ | ü 1 < ü 2 < < ù Ñ } PÑ Ñ = Pû 1 < ü 2 < < Ù Ñ= 1U1,U2,U3,IID Continuous DistNmax{nN|U1<U2<<Un}NpNn=PN=n=1

P(Nn)=P(U1<U2<<Un)=1n!.
NÈÑ=&Sigma; ñ=1个PÑÑ=&Sigma; ñ=11
pN(n)=P(N=n)=1n!1(n+1)!=n(n+1)!.
您会注意到,此结果与您使用基础值的积分计算出的值相符。(解决方案不需要此部分;为完整起见,将其包括在内。)对于非负随机变量期望值使用众所周知的规则,我们具有: 再次注意,在我们的工作中没有任何东西使用底层均匀分布。因此,这是适用于任何可交换的连续随机变量序列的一般结果。
E(N)=n=1P(Nn)=n=11n!=e1=1.718282.

一些进一步的见解:

从上面的工作中,我们可以看到,此分布结果和所得的期望值不依赖于基础分布,只要它是连续分布即可。一旦我们考虑到可以通过均匀随机变量的单调变换(以该变换为其分位数函数)获得每个连续标量随机变量这一事实,这真的就不足为奇了。由于单调变换保留等级顺序,因此查看任意IID连续随机变量的排序概率与查看IID 统一随机变量的排序概率相同


6
做得很好!(+1)
jbowman

1
@Ben我一直跟着您直到最后一个方程式...我认为期望值应为,而不是 ……您能不能进一步解释这一部分?È Ñ = &Sigma; Ñ = 1个 P Ñ Ñ
E(N)=n=1P(N=n)n=n=1n2/(n+1)!
E(N)=n=1P(Nn)
亚马逊人

5
对于非负随机变量期望值,这是众所周知的规则。使用涉及交换求和顺序的技术,您可以: 因此,您应该找到。Σ Ñ 1
E(N)=n=1nP(N=n)=n=1k=1nP(N=n)=n=1k=nP(N=k)=n=1P(Nn).
n1n!=nn2(n+1)!
恢复莫妮卡

您能否详细说明为什么?P(Nn)=P(U1<U2<<Un)
badmax

1
@badmax:随机变量是序列开头的递增元素数(请参见其定义)。因此,如果意味着在序列的开头至少存在递增元素。这意味着前元素必须按排列,即。ü Ñ Ñ Ñ Ñ ù 1 < ü 2 < < ù ÑNUNnnnU1<U2<<Un
恢复莫妮卡

8

另一种解决方法,可为您提供更通用的解决方案。

假设是单调序列的期望长度,使得。我们要计算的值为。并且我们知道。根据下一个值,{ X 1X 2} X X 1X 2˚F 0 ˚F 1 = 0F(x){x1,x2,...}xx1x2F(0)F(1)=0

F(x)=0xπ(y)0dy+x1π(y)(1+F(y))dy=x11+F(y)dy

其中是U [0,1]密度。所以π(y)=1

F(x)=(1+F(x))

用边界条件求解,得到。因此。F x = e 1 x 1 F 0 = e 1F(1)=0F(x)=e(1x)1F(0)=e1


2
这是非常聪明的。只是说明一下:您的观察结果是:1)如果是最长的初始递增序列的长度减去1,则足以确定并设置和2)如果,则为零,否则为。由于我们得到,在统一情况下可以直接求解。LE(L|X0=x)=:F(x)x=0E(L|X0=x,X1=y)y<x1+E(L|X0=y)E(L|X0=x)=E(E(L|X0=x,X1))=RfX(y)E(L|X0=x,X1=y)dy=x1fX(y)(1+E(L|X0=y))dy=x1fX(y)(1+F(y))dyF(x)=fX(x)(1+F(x))
马修塔楼

2
+1确实非常聪明。但是由于最终答案不依赖于分布(如另一个答案所讨论的),因此该计算也应该不依赖于。有什么办法看吗?CC到@m_t_。π(y)
变形虫说恢复莫妮卡

3
@amoeba我同意不应该依赖于的分布 S,但其他值应:那DE是一般溶液F(0)XFF=Ceπ1
马修塔

1
@MartijnWeterings我认为而不是1,例如,在统一的情况下,我们得到C=eeex1
马修·塔

1
是的,你是对的。我使用统一的案例来推断我的陈述,但错误地使用而不是ce1x1cex1
Sextus Empiricus

0

另一种解决方法是直接计算积分。

nfn(0)fn(x)=x1x11x21...xn21xn11dxndxn1...dx2dx1

fn(0)

fn(x)fn(x)=t=0n(x)tt!(nt)!

n=1f1(x)=t=01(x)tt!(nt)!=1x=x1dx1

n=kfn(x)=t=0k(x)tt!(kt)! , for k1

n=k+1

     fn(x)=fk+1(x)=x1fk(x)dx

=x1t=0k(x)tt!(kt)!dx

=t=0k(x)t+1t!(kt)!×(t+1)|x1=t=0k(x)t+1(t+1)!(kt)!|x1

=t=1k+1(x)tt!(kt+1)!|x1

=t=1k+1(1)t+1t!(kt+1)!+t=1k+1(x)tt!(kt+1)!

=t=1k+1(1)t+1Ctk+1(k+1)!+t=1k+1(x)tt!(kt+1)!

=1(k+1)!+t=0k+1(1)t+1Ctk+1(k+1)!+t=1k+1(x)tt!(kt+1)!

=1(k+1)!(11)k+1(k+1)!+t=1k+1(x)tt!(kt+1)!

=t=0k+1(x)tt!(kt+1)!

通过数学归纳法,该假设成立。

fn(0)=1n!

E(length)=n=1Pr(lengthn)=n=11n!=e1

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.