优惠券收集时间的下限是多少?


20

在经典的Coupon Collector问题中,众所周知,完成一组随机挑选的优惠券所需的时间满足,和。TnE[T]nlnnVar(T)n2Pr(T>nlnn+cn)<ec

这个上限比切比雪夫不等式给出的上限更好,后者约为 1/c2

我的问题是:是否有相应优于切比雪夫下限T?(例如,类似Pr(T<nlnncn)<ec)?


一个明显的下界是Pr(T<n)=0,但我想您已经意识到了这一点
一站式服务

Answers:


14

我将其作为第二个答案,因为分析是完全基本的,并且可以提供所需的结果。

命题对于c>0n1

P(T<nlogncn)<ec.

证明背后的想法很简单:

  1. 直到所有的试样被收集作为表示时间T=i=1nTi,其中Ti是,时间i个(以往)唯一优惠券被收集。的Ti是与平均时间几何随机变量nni+1
  2. 应用版本的Chernoff边界并简化。

证明

对于任何和任何,我们具有 小号> 0 PŤ < = Pë - 小号Ť > ë - 小号Ë 小号 ë ë - 小号Ťt s>0

P(T<t)=P(esT>est)estEesT.

由于和是独立的,因此我们可以写 T i E e - s T = n i = 1 E e - s T iT=iTiTi

EesT=i=1nEesTi

现在,既然是几何的,那么以成功的概率,那么一个简单的计算显示 p i E e - s T i = p iTipi

EesTi=pies1+pi.

对于我们的问题,为,,等,因此 p 1 = 1 p 2 = 1 - 1 / Ñ p 3 = 1 - 2 / Ñ Ñ Π= 1 ë ë - 小号Ť = Ñ Π= 1/ Ñpip1=1p2=11/np3=12/n

i=1nEesTi=i=1ni/nes1+i/n.

让我们为某些选择 和。然后 和,产生 = ñ 登录ñ - ç Ñ ç > 0 Ë 小号 = Ñ ë - C ^ Ë 小号 = ë 1 / Ñ1 + 1 / Ñ Ñ Π= 1/ Ñs=1/nt=nlogncnc>0

est=nec
es=e1/n1+1/n
i=1ni/nes1+i/ni=1nii+1=1n+1.

放在一起,我们得到

P(T<nlogncn)nn+1ec<ec

如预期的。


很好,这正是医生命令的。谢谢。
大卫(David)

@David,只是好奇:预期的应用程序是什么?
红衣主教

很长的故事。我正在尝试证明已经煮熟的马尔可夫链的混合时间的下限,以便分析我感兴趣的算法的运行时间-事实证明可以减少到c的下界.collector问题。顺便说一句,我一直在努力寻找恰好是切尔诺夫风格的界限,但还没有想出如何在摆脱这种产品。选择 :-)的良好通话。s = 1 / nis=1/n
大卫,

@David,,尽管几乎可以肯定是次优的,但似乎很容易尝试,因为它给出了,这与从推导中获得的术语相同。上限。e s t = n e cs=1/nest=nec
主教

1
请求:我上面提供的证明是我自己的。因为这个问题引起了我的兴趣,所以我出于愉悦地工作。但是,我不主张新颖性。的确,我无法想象文献中还没有使用类似技术的类似证据。如果有人知道参考文献,在此处发表它作为评论。我会感兴趣的。
主教

9

尽管@cardinal已经给出了一个答案,该答案给出了我一直在寻找的界限,但是我发现了类似的Chernoff风格的论点,可以给出一个更强的界限:

命题: (对于来说更强)

Pr(Tnlogncn)exp(3c2π2).
c>π23

证明

就像@cardinal的答案一样,我们可以使用是具有成功概率的独立几何随机变量之和的事实。因此,和。TTipi=1i/nE[Ti]=1/piE[T]=i=1nE[Ti]=ni=1n1inlogn

现在定义新变量和。然后我们可以写 Si:=TiE[Ti]S:=iSi

Pr(Tnlogncn)Pr(TE[T]cn)=Pr(Scn)
=Pr(exp(sS)exp(scn))escnE[esS]

计算平均值,我们有

E[esS]=iE[esSi]=ies/pi1+1pi(es1)e12s2ipi2
,其中不等式来自于和表示。es1sez1+ze12z2z0

因此,由于,我们可以写 ipi2=n2i=1n11i2n2π2/6

Pr(Tnlogncn)e112(nπs)2scn.

最小化,我们最终获得 Ť ñ 登录ñ - Ç Ñ ë - 3 c ^ 2s>0

Pr(Tnlogncn)e3c2π2

1
(+1)Modulo几次轻微的错字,这很好。当您完成工作时,将内容扩展到接近平均值的效果通常会更好。鉴于渐近结果,我不感到惊讶地看到更高阶的收敛。现在,如果显示类似的上限,则证明在Vershynin的术语中是次指数的,这对量度具有许多含义。(Tnlogn)/n
主教

1
该论点似乎并没有直接推广到上限。交换为(和为),可以按照相同的步骤直至计算的点。然而,此时,我能做的最好的就是使用,仍然留下而我没有不知道该怎么办- Ç 小号- 小号ë [ ë 小号小号 ] Π ë - 小号/ p ccss ë-žE[esS]ies/pi1spiez1zexp(z22(1z))
E[esS]e12s2ipi2(1s/pi)
David

2
不过,有趣的是,整个论点(针对下限)似乎不仅适用于息票收集器问题,而且适用于任何具有方差的不相同,独立的几何变量之和。具体来说:给定,其中每个是具有成功概率的独立GV ,其中,则 T=iTiTipiipi2A<
Pr(TE[T]a)ea22A
David David

4

重要说明:我决定删除我最初在此答案中提供的证明。与我提供的其他证明相比,它更长,计算量更大,使用的锤子更大,并且证明了结果较弱。到处都是(我认为)劣等的方法。如果您真的有兴趣,我想您可以看看所做的修改。

我最初引用的渐近结果仍然可以在下面的答案中找到,该结果确实表明,对于我们可以做的比其他答案中证明的界更好,后者适用于所有n n


下列渐近结果成立

P(T>nlogn+cn)1eec

P(Tnlogncn)eec.

常数和极限取为。请注意,尽管将它们分为两个结果,但它们几乎是相同的结果,因为在任何情况下都不会被约束为非负数。cRnc

有关证明,请参见例如Motwani和Raghavan的《随机算法》,第60--63页。


另外:大卫请为这个答案的注释中的陈述上限提供证明。


是的,它适用于每个固定。可以找到一个(非常简单的)证明,例如在Levin,Peres和Wilmer的著作《马尔可夫链和混合时间》(命题2.4)中。但是,该证明不适用于下限。n
大卫,

1
实际上,我不妨在这里转录证明:“让是第个[coupon]类型没有出现在抽取的前优惠券中的情况。首先观察。由于每个试验都有的概率没有提取优惠券并且这些试验是独立的,上方的右上方由,证明(2.7)。” Aiinlogn+cnP(τ>nlogn+cn)=P(iAi)iP(Ai)1n1ii(11/n)nlogn+cnnexp(nlogn+cnn)=ec
大卫

@David,很好,很简单。我很快就将包含-排除公式扩展为另一个术语,但并没有很快到达,也没有时间进一步研究它。事件等同于试用后不剩下优惠券的事件。应该有一个与此相关的mar。您是否在(假定的)关联mar上尝试了霍夫丁不等式?渐近结果表明强烈的措施集中。{T<tn}tn
红衣主教

@David,上面的证明中有一个符号翻转,但是我敢肯定,这对其他读者也很明显。
红衣主教

@David,请参阅我对您问题的其他已发布答案。该方法与您给出的上限不同,但是与我在此处给出的答案相反,所使用的工具几乎是基本的。
红衣主教

2

本杰明·杜尔(本章“分析随机搜索的启发式:从概率论工具”中的书“随机搜索的启发式理论”,见链接在线PDF)的稍显简单的证明

命题设是优惠券收集过程的停止时间。然后。TPr[T(1ϵ)(n1)lnn]enϵ

这似乎给出了所需的渐近性(来自@cardinal的第二个答案),但具有对所有和成立的优点。nϵ

这是一个证明草图。

证明草图:假设是在第抽奖中收集到第个优惠券的事件。因此,。关键的事实是,是负相关的,对于任何,。直观地说,这是相当清楚的,因为明知在第一个券平会使其不太可能的是,个券也被拉在第一平局。 XiitPr[Xi=1]=(11/n)tXiI[n]Pr[iI,Xi=1]iIPr[Xi=1]itjt

可以证明要求,但在每一步将集合放大1。然后,它为对显示。等效地,通过平均,它简化为显示。Doerr为此仅给出了直观的论据。证明的一种途径如下。可以观察到,以所有优惠券之后的优惠券为条件,到目前为止,在抽取之后从抽取新优惠券的概率现在为,而不是以前的IPr[iI,Xi=1|Xj=1]Pr[iI,Xi=1]jIj I I k | | kPr[iI,Xi=1|Xj=0]Pr[iI,Xi=1]jIIk | | k|I|kn1 Ĵ|I|kn。因此,将收集所有优惠券的时间分解为几何随机变量的总和,我们可以看到对优惠券的调节是在增加成功概率之后进行的,因此进行调节只会使其更有可能更早地收集优惠券(通过随机优势:就随机优势而言,每个几何随机变量都通过条件调节而增加,然后可以将该优势应用于总和。jI

给定这种负相关性,则得出,期望界。= 1 - ε ñ - 1 LN ÑPr[T(1ϵ)(n1)lnn](1(11/n)t)nt=(1ϵ)(n1)lnn

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.