我想知道是否存在以下问题的下限(就样本复杂性而言):
给定示例oracle访问{ 1 ,… ,n }上的两个未知分布,,测试(whp)是否
- 或
Batu等。[BFR + 00]显示样本足够,但是我还没有发现下界的任何提法吗?
我认为总可以显示通过减少区分此问题的公平与偏向硬币的任务(模拟仅支持两点的分布,并根据iid抛硬币来回答测试者的问题)来降低下限,但这仍然留下二次缺口...
(我要关注的另一点是估计(最大为累加)此距离的下限-再次,我在文献中未发现此类结果的参考)
谢谢你的帮助,
我想知道是否存在以下问题的下限(就样本复杂性而言):
给定示例oracle访问{ 1 ,… ,n }上的两个未知分布,,测试(whp)是否
Batu等。[BFR + 00]显示样本足够,但是我还没有发现下界的任何提法吗?
我认为总可以显示通过减少区分此问题的公平与偏向硬币的任务(模拟仅支持两点的分布,并根据iid抛硬币来回答测试者的问题)来降低下限,但这仍然留下二次缺口...
(我要关注的另一点是估计(最大为累加)此距离的下限-再次,我在文献中未发现此类结果的参考)
谢谢你的帮助,
Answers:
看来,样品-如美国UL下面显示-是足以进行测试,以使样品的复杂性是完全Θ (1 / ε 2) ; 实际上,事实证明这个样本数我们甚至没有足够的学习d高达添加剂ε WRT的大号2常态。
让d是通过拉伸获得的经验密度函数米 IID样品小号1,... ,小号米〜d和设定 d(ķ ) 然后 ‖ d - d ‖ 2 2
我将试图弥补我以前的错误通过显示相反的东西-那样本就足够了(1/ϵ2的下限几乎很紧)!看看你的想法...。
关键的直觉来自两个观察。首先,为了使分布有一个距离的ε,必须有高概率(点Ω (ε 2))。例如,如果我们有1 / ε 3概率的点ε 3,我们不得不‖ d 1 - d 2 | | 2 ≤ √。
第二,考虑具有均匀分布的距离的ε。如果我们有Ô (1 )的概率的点直径:(1 ),那么他们将每个相差ø (ε )和1 / ε 2样品就足够了。另一方面,如果我们有O (1 / ϵ 2)点,则它们每个都需要相差O (ϵ 2),然后又相差O (1/1 /样本(每点恒定的数目)就足够了。因此,我们可能希望,在前面提到的高概率点中,总有一些 O (1 / ϵ 2)所区分的“足够”点可以区分它。
算法。鉴于和参数的置信度中号,让X = 中号数(1 / ε 2)。开奖X样品从每一个分布。令ai,bi分别是点i的较高,较低数量的样本。如果有任何点我∈[Ñ]对于其中一个我≥X和一个我-b我≥√,声明分布不同。否则,声明它们相同。
正确性和置信范围()取决于以下引理,即所有L 2距离的偏差都来自概率相差Ω (ϵ 2)的点。
要求。假设。让δ 我 = | d 1(我)- d 2(我)| 。让小号ķ = { 我:δ 我 > ε 2。然后 Σ我∈小号ķ δ 2 我 ≥ε2(1-2
证明。我们有 让我们绑定第二个和;我们希望最大限度地Σ 我∉ 小号ķ δ 2 我受Σ 我∉ 小号ķ δ 我 ≤ 2。由于函数X ↦ X 2是严格凸和增加,我们可以采取任何增加的客观δ
索赔。设。如果‖ d 1 - d 2 | | 2 ≥ ε,存在的至少一个点我∈ [ Ñ ]与p 我 > ε 2和δ我≥ε √。
证明。首先,在所有的点具有p 我 ≥ δ 我 > ε 2按定义定义 k(并且根据先前的声明,对于k>2,Sk不能为空)。
第二,因为,我们有 Σ 我∈ 小号ķ δ 2 我 ≥ ε 2 (1 或者,重新布置, Σ我∈小号ķ(δ 2 我 -p我ε2(1
索赔(误报)。如果,我们的算法宣称他们最多的概率不同ë - Ω (中号)。
素描。考虑两种情况:和p 我 ≥ ε 2 / 16。在第一种情况下,样本的数目我将不超过X / 8从任一分布:样品的平均数目是< X / 16和结合的尾说,和概率ë - Ω (X / p 我) = ε 2 e - Ω (M /,我的样品不超过其平均通过添加剂X/16; 如果我们小心地将值pi保持在尾部边界,则无论它们有多少这样的点,我们都可以对其进行联合边界(直觉上,边界在可能点的数量上呈指数下降)。
在这种情况下,我们可以使用一个Chernoff边界:它说的是,当我们采取米的样品和一个点被绘制以概率p,从其平均值不同的概率p 米通过Ç √为至多ë - Ω ((Ç √。在这里,令c= √,所以概率为界ë-Ω(X)=ε2ë-Ω(中号)。
因此,与概率,(对于两种分布)的样本的数目我是内√其平均值的p我X。因此,我们的测试将不会抓住这些点(它们彼此非常接近),并且我们可以对全部16/ϵ2进行并集约束。◻
索赔(误报)。如果,我们的算法声明它们至多概率相同ε 2 ë - Ω (中号)。
素描。有一些点与p 我 > ε 2 / 4和δ 我 ≥ ε √。相同的Chernoff边界如前述权利要求中表示,以概率1-ε2ë-Ω(中号),所述的样本数我从它的均值不同p我中号至多由√。这对于(WLOG)分配1,其具有p我=d1(我)=d2(我)+δ我; 但是分布2的i样本数量与其平均值相差此相加量的可能性甚至更低(因为平均值和方差较低)。
因此,每个分布中的样本数均在√内的平均值;但它们的概率相差δ我,所以他们的装置通过不同 X
因此,对于点,很有可能样本数量相差至少√。◻
为了完成草图,我们需要更严格地证明,对于足够大的情况,当算法使用√时,i的样本数足够接近其均值。而非 √,它没有任何改变(这应该是由留在常量一些余地直截了当)。
您可能首先尝试解决的情况。在这种情况下,我很确定Θ (1 / ϵ 2)个样本将是必要和充分的。
您可能会发现在距离和L 1距离(总变化距离)之间进行转换很有帮助。
众所周知,对于一个样本,如果分布是已知的,则总变化距离完美地表征了人们可以区分与D 2的优势。因此,如果总变化距离较大并且分布已知,则可以建立概率很高的正确检验;如果总变化距离很小,则不能。对于总变化距离较大但分布未知的情况,我不知道该怎么说。
接下来,您可能会看到产品分布和D n 2。使用总变化距离(L 1距离),似乎没有任何相关的良好界限。| D n 1 − D n 2 | | 1至| | D 1 − D 2 | | 1。但是,使用L 2距离时,我相信|的估计值很好。| D n 1 −作为 |的函数 | D 1 − D 2 | | 2。(不幸的是,我似乎无法挖了一个具体提及这些估计/界限,所以我希望我没有记错。)还有已知的界限,让您估计大号1距离的函数大号2距离。
因此,您可以尝试的一种方法是绑定,然后从此开始| | D n 1 − D n 2 | | 1。
我不知道这是否会带来好的结果。这只是一个想法。您引用的论文的作者可能已经尝试或考虑过类似的事情。
可能有用的参考资料:
编辑:这是不正确的!请参阅评论中的讨论-我将在下面指出缺陷。
我想我们可以说是必需的。
设定。令D1为均匀分布(每个点的概率=Θ(ϵ2)),令D2在每个点处与均匀度相差相加量±Θ(ϵ2)。检查大号2距离是ε。
因此,我们必须将面公平硬币与n面Θ (ϵ 2)偏向硬币区分开。我想这应该是至少硬如讲一个2从-sided公平的硬币2 -sided Θ (ε 2) 1-偏移的硬币,这就需要Θ (1样品。编辑:这是不正确的!硬币的偏角为ϵ2,但它乘以一个常数倍。正如DW所指出的,这意味着每点恒定数量的样本会将D1与D2区分开。
注意是我们可以推动这一论点的范围。具体来说,假设我们试图将n增加到1。在均匀分布,每个点具有概率ε3。但是,在d2,我们需要的每个点由从均匀变化ε2.5。这是不可能的,因为ε2.5»ε3。
更抽象,假设我们希望每个点由均匀变化。那么我们最多可以将n设置为1。为了得到一个大号2距离的ε,我们需要满足该距离的总和的平方根是ε,所以√,因此ϵ k / 2 =ϵ因此k=2,我们得到n= 1。
另外,我认为同一论点也表明,如果我们对p > 1的距离感兴趣,则需要k = p,所以我们选择n=1/ϵ p,因此样本数为1/ϵ2p。我认为这独立于n是有道理的。当p→1时,它接近无穷大。如果你试图在区分两个分布大号1的距离ε没有绑定在ñ,我会做ñ无粘结大而展开的不同任意薄,所以你永远无法区分它们(即样本足以满足所有的无固定数量n)。它也接近1为p→∞; 这是有意义的,因为结合,对于大号∞范数,我们可以设置Ñ=1,让每个点相差Θ(ϵ); 我们需要采样一点1次以确保与制服不同,这需要1次样本。