11

我想知道是否存在以下问题的下限(就样本复杂性而言):

给定示例oracle访问{ 1 n }上的两个未知分布D1,测试(whp)是否D2{1,,n}

  • D1=D2
  • d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu等。[BFR + 00]显示O(1ϵ4)样本足够,但是我还没有发现下界的任何提法吗?

我认为总可以显示Ω(1ϵ2)通过减少区分此问题的公平与ϵ偏向硬币的任务(模拟仅支持两点的分布,并根据iid抛硬币来回答测试者的问题)来降低下限,但这仍然留下二次缺口...

(我要关注的另一点是估计(最大为累加ϵ)此L2距离的下限-再次,我在文献中未发现此类结果的参考)

谢谢你的帮助,


这个承诺问题似乎与Sahai和Vadhan 所说的统计差异非常相似,这对于SZK类(统计零知识)是一个完整的问题。但是,它们使用距离。cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf。(编辑:我也认为他们假设您有一个计算分布的电路,而不是oracle访问。)L1
usul 2013年

您好,如在另一个评论所提到的,之间的差大号1个范数实际上是至关重要的位置-进一步,在疗法纸,他们建立了一个明确的(而不是任意的)阈值τ = 1 / 3(在备注栏中的一个,他们解释说此阈值需要满足一些特定约束);并希望区分d 1τd 21 - τ(其是某种更靠近耐受测试/距离估计比“通常的测试”,在要测试d 2 = 0dL2L1τ=1/3d1τd21τd2=0(但对于任何固定 ε))。d2ϵϵ
Clement C.

Answers:


6

看来,样品-如美国UL下面显示-是足以进行测试,以使样品的复杂性是完全Θ 1 / ε 2 ; 实际上,事实证明这个样本数我们甚至没有足够的学习d高达添加剂ε WRT的大号2常态。O(1/ϵ2)Θ(1/ϵ2) DϵL2


d是通过拉伸获得的经验密度函数 IID样品小号1... 小号d和设定 dķ D^ms1,,smD 然后 d - d2 2

D^(k)=def1m=1m1{s=k},k[n]
其中Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
。的Xķ“s(对于ķ[Ñ])不是独立的,但我们可以写出 ëd - d2 2Xk=def=1m1{s=k}Bin(m,D(k))Xkk[n] ,使得用于3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ëd - d 2 2ε2m3ϵ2 以及将马尔可夫不等式 P{| |d - d2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(我指的是usul的答案,开头是“我将尝试通过显示相反的内容来弥补以前的错误[...]” –实际上高于该错误。我没想到会这样:))上限,可以表明,最幼稚算法(即,一个,吸引的样品,并将其输出的经验密度这定义)产生一个分布d是,具有恒定概率,ϵ-L 2距离中接近D。m=O(1/ϵ2)D^ϵDL2
Clement C.

@DW我刚刚编辑了答案。
Clement C.

3

我将试图弥补我以前的错误通过显示相反的东西-那样本就足够了(1/ϵ2的下限几乎很紧)!看看你的想法...。Θ~(1ϵ2)1/ϵ2

关键的直觉来自两个观察。首先,为了使分布有一个距离的ε,必须有高概率(点Ω ε 2)。例如,如果我们有1 / ε 3概率的点ε 3,我们不得不d 1 - d 2 | | 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

第二,考虑具有均匀分布的距离的ε。如果我们有Ô 1 的概率的点直径:1 ,那么他们将每个相差ø ε 1 / ε 2样品就足够了。另一方面,如果我们有O 1 / ϵ 2点,则它们每个都需要相差O ϵ 2),然后又相差O 1/1 /L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)样本(每点恒定的数目)就足够了。因此,我们可能希望,在前面提到的高概率点中,总有一些 O 1 / ϵ 2)所区分的“足够”点可以区分它。O(1/ϵ2)Ø1个/ϵ2

算法。鉴于和参数的置信度中号,让X = 中号1 / ε 2。开奖XϵMX=Mlog(1/ϵ2)样品从每一个分布。令aibi分别是点i的较高,较低数量的样本。如果有任何点[Ñ]对于其中一个XXϵ2ai,b一世一世i[ñ]一个-b一种一世X8,声明分布不同。否则,声明它们相同。aibiaiX4

正确性和置信范围()取决于以下引理,即所有L 2距离的偏差都来自概率相差Ω ϵ 2)的点1eΩ(M)L2Ω(ϵ2)

要求。假设。让δ = | d 1- d 2| 。让小号ķ = { δ > ε 2D1D22ϵδi=|D1(i)D2(i)|。然后 Σ小号ķ δ 2 ε21-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

证明。我们有 让我们绑定第二个和;我们希望最大限度地Σ 小号ķ δ 2 Σ 小号ķ δ 2。由于函数X X 2是严格凸和增加,我们可以采取任何增加的客观δ

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2并增加 δ 通过 γ同时减少 δ Ĵ通过 γ。因此,将以尽可能多的项在其最大值处最大化目标,而其余项在 0处最大化目标。每项的最大值为 ϵ 2δiδjδiγδjγ0,最多2kϵ2k而言,这值的(因为它们之和为至多2)。所以 Σ小号ķδ 2 2ķ2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

索赔。设。如果d 1 - d 2 | | 2ε,存在的至少一个点[ Ñ ]p > ε 2pi=max{D1(i),D2(i)}D1D22ϵi[n]δεpi>ϵ24δiϵpi2

证明。首先,在所有的点具有p δ > ε 2Sk按定义定义 k(并且根据先前的声明,对于k>2Sk不能为空)。piδi>ϵ2kSkk>2

第二,因为,我们有 Σ 小号ķ δ 2 ε 2 1ipi2 或者,重新布置, Σ小号ķδ 2 -pε21

iSkδi2ϵ2(121k)iSkpi,
所以不等式 δ2pε21
iSk(δi2piϵ2(121k))0,
Sk中至少保持一点。现在选择k=4
δi2piϵ2(121k)
Skk=4

索赔(误报)。如果,我们的算法宣称他们最多的概率不同ë - Ω 中号D1=D2eΩ(M)

素描。考虑两种情况:p ε 2 / 16。在第一种情况下,样本的数目将不超过X / 8从任一分布:样品的平均数目是< X / 16和结合的尾说,和概率ë - Ω X / p = ε 2 e - Ω M /pi<ϵ2/16piϵ2/16iX/8<X/16的样品不超过其平均通过添加剂X/16; 如果我们小心地将值pi保持在尾部边界,则无论它们有多少这样的点,我们都可以对其进行联合边界(直觉上,边界在可能点的数量上呈指数下降)。eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

在这种情况下,我们可以使用一个Chernoff边界:它说的是,当我们采取的样品和一个点被绘制以概率p,从其平均值不同的概率p 通过Ç piϵ2/16mppm为至多ë - Ω Ç cpm。在这里,令c=eΩ((cpm)2/pm)=eΩ(c2),所以概率为界ë-ΩX=ε2ë-Ω中号c=X16eΩ(X)=ϵ2eΩ(M)

因此,与概率,(对于两种分布)的样本的数目是内1ϵ2eΩ(M)i其平均值的pXpiXϵ2X16。因此,我们的测试将不会抓住这些点(它们彼此非常接近),并且我们可以对全部16/ϵ2进行并集约束。piXϵ216/ϵ2

索赔(误报)。如果,我们的算法声明它们至多概率相同ε 2 ë - Ω 中号D1D22ϵϵ2eΩ(M)

素描。有一些点p > ε 2 / 4δ ε ipi>ϵ2/4。相同的Chernoff边界如前述权利要求中表示,以概率1-ε2ë-Ω中号,所述的样本数从它的均值不同p中号至多由δiϵpi/21ϵ2eΩ(M)ipim。这对于(WLOG)分配1,其具有p=d1=d2+δ; 但是分布2i样本数量与其平均值相差此相加量的可能性甚至更低(因为平均值和方差较低)。pimX161pi=D1(i)=D2(i)+δii2

因此,每个分布中的样本数均在i的平均值;但它们的概率相差δ,所以他们的装置通过不同 XpiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

因此,对于点,很有可能样本数量相差至少i#samples(1)X4

为了完成草图,我们需要更严格地证明,对于足够大的情况,当算法使用时,i的样本数足够接近其均值。Mi而非#samples,它没有任何改变(这应该是由留在常量一些余地直截了当)。mean


您好,感谢这一点-我对算法和分析(关于几个点我不知道领)几个问题:假设我只希望在最后一个恒定的概率的成功,这意味着M常数,如果我理解正确(除非我不知道M是什么)?因此,在这种情况下,转到X:根据算法,它变为Θ log 12/3MMX-正确吗?Θ(log1ϵ)
Clement C.

@ClementC。对不起,我不太清楚!主张是如果我们画的样品,然后被错误的概率是Öë-中号,所以对于被错误的恒定概率,其Ô11ϵ2Mlog(1/ϵ2)O(eM)样本。O(1ϵ2log(1/ϵ2))
usul 2013年

好,那是我收集的。考虑到这一点,我将仔细研究证明-再次感谢您花费的时间!
Clement C.

1

您可能首先尝试解决的情况。在这种情况下,我很确定Θ 1 / ϵ 2)个样本将是必要和充分的。n=2Θ(1/ϵ2)

您可能会发现在距离和L 1距离(总变化距离)之间进行转换很有帮助。L2L1

  • 众所周知,对于一个样本,如果分布是已知的,则总变化距离完美地表征了人们可以区分D 2的优势。因此,如果总变化距离较大并且分布已知,则可以建立概率很高的正确检验;如果总变化距离很小,则不能。对于总变化距离较大但分布未知的情况,我不知道该怎么说。D1D2

  • 接下来,您可能会看到产品分布D n 2。使用总变化距离(L 1距离),似乎没有任何相关的良好界限| D n 1D n 2 | | 1| | D 1D 2 | | 1。但是,使用L 2距离时,我相信|的估计值很好| D n 1D1nD2nL1||D1nD2n||1||D1D2||1L2作为 |的函数 | D 1D 2 | | 2。(不幸的是,我似乎无法挖了一个具体提及这些估计/界限,所以我希望我没有记错。)还有已知的界限,让您估计大号1距离的函数大号2距离。||D1nD2n||2||D1D2||2L1L2

  • 因此,您可以尝试的一种方法是绑定,然后从此开始| | D n 1D n 2 | | 1||D1nD2n||2||D1nD2n||1

我不知道这是否会带来好的结果。这只是一个想法。您引用的论文的作者可能已经尝试或考虑过类似的事情。

可能有用的参考资料:


嗨,谢谢您的回答!但是,当时,我对渐近下界感兴趣。特别是L 2L 1范数之间的关系为nL2L1因子-表示它们确实等效于n常数,但是渐近地非常不同;使用大号1dstance作为代理是不是一种选择,只要能告诉我(作为用于测试接近大号1距离,确切的复杂性是已知的ΘÑ 2 / 3 /nnL1L1 [BFR + 10VAl11难]Θ(n2/3/poly(ϵ))
克莱门特C.

0

编辑:这是不正确的!请参阅评论中的讨论-我将在下面指出缺陷。

我想我们可以说是必需的。1ϵ4

设定。令D1为均匀分布(每个点的概率=Θϵ2),令D2在每个点处与均匀度相差相加量±Θϵ2。检查大号2距离是εn=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

因此,我们必须将面公平硬币与nΘ ϵ 2偏向硬币区分开。我想这应该是至少硬如讲一个2从-sided公平的硬币2 -sided Θ ε 2 1-偏移的硬币,这就需要Θ 1nnΘ(ϵ2)22Θ(ϵ2)样品。编辑:这是不正确的!硬币的偏角为ϵ2,但它乘以一个常数倍。正如DW所指出的,这意味着每点恒定数量的样本会将D1D2区分开。Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


注意是我们可以推动这一论点的范围。具体来说,假设我们试图将n增加到11ϵ4n。在均匀分布,每个点具有概率ε3。但是,在d2,我们需要的每个点由从均匀变化ε2.5。这是不可能的,因为ε2.5»ε31ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

更抽象,假设我们希望每个点由均匀变化。那么我们最多可以将n设置为1ϵkn。为了得到一个大号2距离的ε,我们需要满足该距离的总和的平方根是ε,所以1ϵkL2ϵϵ,因此ϵ k / 2 =ϵ因此k=2,我们得到n= 1n(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

另外,我认为同一论点也表明,如果我们对p > 1的距离感兴趣,则需要k = pLpp>1,所以我们选择n=1/ϵ pk=pp1,因此样本数为1/ϵ2pn=1/ϵpp1。我认为这独立于n是有道理的。当p1时,它接近无穷大。如果你试图在区分两个分布大号1的距离ε没有绑定在ñ,我会做ñ无粘结大而展开的不同任意薄,所以你永远无法区分它们(样本足以满足所有的无固定数量n)。它也接近11/ϵ2pp1np1L1ϵnnnp; 这是有意义的,因为结合,对于大号范数,我们可以设置Ñ=11ϵ3pL,让每个点相差Θϵ; 我们需要采样一点1n=1ϵΘ(ϵ)次以确保与制服不同,这需要1次1ϵ2样本。1ϵ3


D2±1/ϵ2±ϵ2

1
2.我不认为区分D 2需要1 /D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2

@DW(1)你是对的!固定。(2)正如您所说,我同意,但是我认为使用不同的常量选择会更困难。我想象这样的事情:,那么d 1放概率100 ε 2上的各点。然后D 2n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2

1
我认为样本仍然足够。收集m = 10 6 n个样本,并计算每个可能值出现多少次。对于O(1/ϵ2)m=106nD11000D210001000D1D2,因为1,000,000和1,100,000之间的差是100个标准差,即很大。
DW

1/ϵ2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.