球和在垃圾箱分析


23

假设我们将球扔进仓中,其中。令为最终进入箱的球数,为最重的箱,X_ \ min为最轻的箱,X _ {\ mathrm {sec-max}}为第二重的箱。粗略地说,X_i-X_j \ sim N(0,2m / n),因此我们期望| X_i-X_j | = \ Theta(\ sqrt {m / n})对于任意两个固定的i,j。使用联合约束,我们期望X _ {\ max}-X _ {\ min} = O(\ sqrt {m \ log n / n});大概,我们可以通过考虑n / 2来获得匹配的下界mnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2对不相交的垃圾箱。这个(不是完全正式的)论点使我们期望XmaxX _ {\ min}之间的差距Xmin很有可能是Θ(mlogn/n)

我对XmaxX _ {\ mathrm {sec-max}}之间的差距感兴趣Xsecmax。上面概述的论点表明XmaxXsecmax=O(mlogn/n)可能性很高,但是logn因子似乎是多余的。是否知道有关XmaxXsecmax

更一般而言,假设每个球与每个仓的非负得分相关联,并且我们对投掷m球后每个仓的总得分感兴趣。通常的情况对应于形式为(0,\ ldots,0,1,0,\ ldots,0)的分数(0,,0,1,0,,0)。假设在bin的排列下得分的概率分布是不变的(在通常情况下,这对应于所有bin都是等概率的事实)。给定分数的分布,我们可以使用第一段的方法来很好地限制XmaxXmin。边界将包含logn来自联合约束(通过正态变量的尾部概率)。如果我们有兴趣限制X _ {\ max}-X _ {\ mathrm {sec-max}}的范围,可以减少此因子XmaxXsecmax吗?


每个分数都在[0,1]中?
Neal Young

并不重要,您可以随时对其进行缩放以使其位于[0,1]
Yuval Filmus 2012年

Answers:


21

答案: Θ(mnlogn)

应用中心极限定理的多维形式,我们得到向量具有渐近多元高斯分布 和 下面我们将假设一个高斯向量(并且不仅是近似高斯向量)。让我们将具有方差的高斯随机变量添加到所有(独立于所有)。也就是说,让 V a r [ X i ] = m 1(X1,,Xn)CovXiXj=m/n2XZm/n2XiZXi Y 1 YYn

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXiY1
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
我们得到一个高斯向量。现在每个都有方差: 并且所有是独立的: (Y1,,Yn) m / n V a r [ YYim/nYiCovYiYj=CovXiXj+ C o vX iZ + C o vX jZ =
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

注意,。因此,我们最初的问题等同于找到。为了简单起见,让我们首先分析所有具有方差。Y m a xY s e c m a x Y i 1YiYj=XiXjYmaxYsecmaxYi1

问题。给出独立的高斯rv,均值和方差。估计对的期望。γ 1... γ Ñ μ 1 γ 一个X - γ 小号ë Ç - 中号一个Xnγ1,,γnμ1γmaxγsecmax

答案:Θ(1logn)

非正式证明。 这是解决此问题的非正式解决方案(将其正式化并不难)。由于答案不取决于均值,因此我们假定。令,其中。(对于中等大的), 我们有ˉ Φμ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

注意

  • Φ(γi)均匀且独立地分布在,[0,1]

  • Φ(γmax)在最小,Φ(γi)

  • Φ(γsecmax)在排名第二。Φ(γi)

因此接近,接近(没有集中力,但如果我们不专注如果不关心常量,这些估计值就足够了;实际上,如果我们关心常量,它们甚至还不错-但这需要证明。使用的公式,我们得到 1 / Ñ Φ γ 中号X2 / Ñ ˉ Φ2 听,说:ˉ ΦγΦ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

因此是 whp注意,。我们有 γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

优质教育

我们得到

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

当我们拥有任意分数时,也会发生同样的争论。它显示

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
谢谢!我会记得下次尝试多元高斯近似。
Yuval Filmus 2012年

5
尤里(Yury),您写道:“让我们向所有添加方差为的高斯向量我们得到一个高斯向量。现在每个方差为而所有都不相关...请注意,。” 您可以在这部分进行扩展吗?是?如果是相关的,而是独立的(或一致地相同),那么怎么独立?(似乎是一个巧妙的把戏,但我不明白。)谢谢。Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi
尼尔·杨

1
@NealYoung,是的,如果我们有变量具有负成对相关所有协方差是相等的,那么我们可以增加一个单个新的随机变量所有使得总和是独立的。同样,如果变量具有正相关,并且所有协方差相等,那么我们可以从所有变量中减去一个rv,以便所有差异都是独立的;但现在不独立于,而是X1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj)ZZXiZ=α(X1++Xn)对于某些缩放参数。α
尤里

1
啊,我明白了。至少在代数上,它所依赖的是Z和每个的成对独立性。很酷。Xi
Suresh Venkat 2012年

1
现在,该论点(带有署名)出现在EC'14论文中:dl.acm.org/citation.cfm ? id= 2602829
Yuval Filmus 2015年

13

对于第一个问题,我想您可以证明wh是 请注意,这是。XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

将您的随机实验与以下替代方法进行比较:令为前存储桶中任何一个的最大负载。令为最后存储桶中任何一个的最大负载。X1n/2X2n/2

考虑时,是。此外,概率至少为一半 。因此,粗略地说,的分布类似于。|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmaxXmaxXsecmax|X1X2|

学习,请注意,很有可能将球扔入前容器中,同样将它们扔到最后容器中。因此,当将球扔进仓时,和的分布基本上像最大负载一样。|X1X2|m/2±O(m)n/2n/2X1X2m=m/2±o(m)n=n/2

对此分布进行了仔细研究,幸运的是,这种分布紧密地围绕其均值。例如,如果,则很有可能与它的期望相差最多此答案顶部显示的数量1 ]。(注意:给定Yuri的答案,这个上限是宽松的。)因此,很有可能和也最多相差这么多,因此和差异最多。mnlog3nX1X1X2XmaxXmaxsec

相反,对于(稍微弱一些)下限,对于任何来说,如果,则至少为 (根据天真的联合约束)至少为 我认为这应该给您(例如)在一个连续因素内对的期望。tPr[|X1X2|t]3/4Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
X max - X sec-max1(1/4)(1/2)=1/4.XmaxXsec-max

看Thm。1,与预期的差异是,而不是您写的内容。仍然比好得多。O((m/n)loglogn)O((m/n)logn)
Yuval Filmus 2012年

通过Thm。1(第3种情况),对于任何且概率为,任何仓中的最大值(n个仓中的m个球)为 通过我的数学运算(使用),项扩展为我究竟做错了什么?1 ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
± ε Ô ε 1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
Neal Young

啊-我猜你是对的。我减去了平方根,这就是我的身材。
Yuval Filmus 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.