我将试图弥补我以前的错误通过显示相反的东西-那样本就足够了(1/ϵ2的下限几乎很紧)!看看你的想法...。Θ〜(1ϵ2)1 / ϵ2
关键的直觉来自两个观察。首先,为了使分布有一个距离的ε,必须有高概率(点Ω (ε 2))。例如,如果我们有1 / ε 3概率的点ε 3,我们不得不‖ d 1 - d 2 | | 2 ≤ √大号2ϵΩ (ϵ2)1 / ϵ3ϵ3。∥ d1个− D2∥2≤ 1ϵ3(ϵ3)2------√=ϵ3/2<ϵ
第二,考虑具有均匀分布的距离的ε。如果我们有Ô (1 )的概率的点直径:(1 ),那么他们将每个相差ø (ε )和1 / ε 2样品就足够了。另一方面,如果我们有O (1 / ϵ 2)点,则它们每个都需要相差O (ϵ 2),然后又相差O (1/1 /L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)样本(每点恒定的数目)就足够了。因此,我们可能希望,在前面提到的高概率点中,总有一些 O (1 / ϵ 2)所区分的“足够”点可以区分它。O(1/ϵ2)O(1/ϵ2)
算法。鉴于和参数的置信度中号,让X = 中号数(1 / ε 2)。开奖XϵMX=Mlog(1/ϵ2)样品从每一个分布。令ai,bi分别是点i的较高,较低数量的样本。如果有任何点我∈[Ñ]对于其中一个我≥XXϵ2ai,b一世一世我∈ [ Ñ ]和一个我-b我≥√一种一世≥ X8,声明分布不同。否则,声明它们相同。一种一世− b一世≥ 一一世--√X√4
正确性和置信范围()取决于以下引理,即所有L 2距离的偏差都来自概率相差Ω (ϵ 2)的点。1−e−Ω(M)L2Ω(ϵ2)
要求。假设。让δ 我 = | d 1(我)- d 2(我)| 。让小号ķ = { 我:δ 我 > ε 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|。然后
Σ我∈小号ķ δ 2 我 ≥ε2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
证明。我们有
让我们绑定第二个和;我们希望最大限度地Σ 我∉ 小号ķ δ 2 我受Σ 我∉ 小号ķ δ 我 ≤ 2。由于函数X ↦ X 2是严格凸和增加,我们可以采取任何增加的客观δ
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2并增加
δ 我通过
γ同时减少
δ Ĵ通过
γ。因此,将以尽可能多的项在其最大值处最大化目标,而其余项在
0处最大化目标。每项的最大值为
ϵ 2δi≥δjδiγδjγ0,最多
2kϵ2k而言,这值的(因为它们之和为至多
2)。所以
Σ我∉小号ķδ 2 我 ≤2ķ2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
索赔。设。如果‖ d 1 - d 2 | | 2 ≥ ε,存在的至少一个点我∈ [ Ñ ]与p 我 > ε 2pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n]和δ我≥ε √pi>ϵ24。δi≥ϵpi√2
证明。首先,在所有的点具有p 我 ≥ δ 我 > ε 2Sk按定义定义 k(并且根据先前的声明,对于k>2,Sk不能为空)。pi≥δi>ϵ2kSkk>2
第二,因为,我们有
Σ 我∈ 小号ķ δ 2 我 ≥ ε 2 (1∑ipi≤2
或者,重新布置,
Σ我∈小号ķ(δ 2 我 -p我ε2(1
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
所以不等式
δ2我≥p我ε2(1∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
在
Sk中至少保持一点。现在选择
k=4。
◻δ2i≥piϵ2(12−1k)
Skk=4□
索赔(误报)。如果,我们的算法宣称他们最多的概率不同ë - Ω (中号)。D1=D2e−Ω(M)
素描。考虑两种情况:和p 我 ≥ ε 2 / 16。在第一种情况下,样本的数目我将不超过X / 8从任一分布:样品的平均数目是< X / 16和结合的尾说,和概率ë - Ω (X / p 我) = ε 2 e - Ω (M /pi<ϵ2/16pi≥ϵ2/16iX/8<X/16,我的样品不超过其平均通过添加剂X/16; 如果我们小心地将值pi保持在尾部边界,则无论它们有多少这样的点,我们都可以对其进行联合边界(直觉上,边界在可能点的数量上呈指数下降)。e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
在这种情况下,我们可以使用一个Chernoff边界:它说的是,当我们采取米的样品和一个点被绘制以概率p,从其平均值不同的概率p 米通过Ç √pi≥ϵ2/16mppm为至多ë - Ω ((Ç √cpm−−−√。在这里,令c= √e−Ω((cpm√)2/pm)=e−Ω(c2),所以概率为界ë-Ω(X)=ε2ë-Ω(中号)。c=X√16e−Ω(X)=ϵ2e−Ω(M)
因此,与概率,(对于两种分布)的样本的数目我是内√1−ϵ2e−Ω(M)i其平均值的p我XpiXϵ2−−−−√X√16。因此,我们的测试将不会抓住这些点(它们彼此非常接近),并且我们可以对全部16/ϵ2进行并集约束。◻piXϵ216/ϵ2□
索赔(误报)。如果,我们的算法声明它们至多概率相同ε 2 ë - Ω (中号)。∥D1−D2∥2≥ϵϵ2e−Ω(M)
素描。有一些点与p 我 > ε 2 / 4和δ 我 ≥ ε √ipi>ϵ2/4。相同的Chernoff边界如前述权利要求中表示,以概率1-ε2ë-Ω(中号),所述的样本数我从它的均值不同p我中号至多由√δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipim。这对于(WLOG)分配1,其具有p我=d1(我)=d2(我)+δ我; 但是分布2的i样本数量与其平均值相差此相加量的可能性甚至更低(因为平均值和方差较低)。pim−−−√X√161pi=D1(i)=D2(i)+δii2
因此,每个分布中的样本数均在√内i的平均值;但它们的概率相差δ我,所以他们的装置通过不同
XpiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
因此,对于点,很有可能样本数量相差至少√i。◻#samples(1)−−−−−−−−−−−√X√4□
为了完成草图,我们需要更严格地证明,对于足够大的情况,当算法使用√时,i的样本数足够接近其均值。Mi而非 √#samples−−−−−−−−√,它没有任何改变(这应该是由留在常量一些余地直截了当)。mean−−−−−√