将“中间技巧”推广到更高维度?


21

对于采用实数值的随机算法A,“中位技巧”是一种将失败概率降低到任何阈值的简单方法δ>0,其代价是仅乘以t=O(log1δ)开销。即,如果A的输出落入‘良好范围’I=[a,b]的概率(至少)2/3,然后运行独立拷贝A1,,At并考虑它们的输出的中间值a1,,at将导致下降的值I的概率至少是1δ由切尔诺夫/ Hoeffding界限。

有没有把这个“技巧”推广到更高的维度,例如Rd,现在好的范围是凸集(或球,或任何足够好的结构化集)?即,给定一个随机算法A输出在值Rd,和一个“好一套” SRd使得Pr{A(x,r)S}2/3对于所有x,如何能一个升压成功的概率为1δ对数成本只有1/δ

(表述是不同的:给定的固定,arbirary a1,,atRd与保证至少2t3ai的属于S,有没有输出从一个值过程S?如果是这样,那有没有效率?)

为了达到上述要求,一个人对的最低假设S是什么?

抱歉,这真是微不足道-我找不到这个问题的参考...


3
在特殊的情况下,是一个长方体,如果您在每个维度上单独使用中位数技巧,是否可以正常工作?因此,对一堆点进行采样,然后将其坐标的中位数取为维度1、2,...,d,然后在R d中获得一个点。也许你会需要Ø 日志d / ε 的样品与这一战略?SRdO(log(d/ϵ))
罗宾·科塔里

1
在一维情况下,通常您知道但不知道确切的间隔(尽管即使您不知道b - a,中值技巧仍然有效)。我们是否应该假设我们知道S但只翻译?达到翻译和缩放比例?babaS
Sasho Nikolov

@SashoNikolov我认为这确实是最“一般的概括”(例如,我们只知道是“直径ε的好球”)。Sε
克莱门特·C。

1
好吧,托马斯在答案中写的内容更为笼统:他假设(答案中的G)是未知的凸集。SG
Sasho Nikolov 2015年

Answers:


17

您正在寻找的几乎是一个强大的 集中趋势:一种将数据点云减少到单个点的方法,这样,如果许多数据点接近某个“基本事实”,而其余数据点都接近任意远,那么您的输出也将接近地面真相。这种方法的“崩溃点”是它可以容忍的任意严重异常值的一部分。区别在于,在您的情况下,您希望将“接近”替换为“在的凸包内”。

捕获这一点的一种方法是使用Tukey深度的概念。如果每个包含给定点的半空间也包含至少p n个数据点,则该点的Tukey深度为(相对于给定的n个数据点的集合)。如果要在其中包含一个良好的凸子空间,则在其中具有Tukey深度p的点将在其中,只要其中至少有1 - p n个数据点即可。因此,该方法的故障点是您可以获得的p的最大值。pnpnp(1p)np

不幸的是,对于Tukey深度和您的问题,此击穿点都是,不接近1/2。这里的原因:如果你的数据是接近聚集d + 1个一个单纯的顶点,那么只要少于1 /d + 1 的他们是异常值(但你不知道哪些)在随后的任何一点分数单纯形很安全,因为它将始终位于非离群值的凸包内。但是如果超过1 /d + 1 1/(d+1)d+11/(d+1)1/(d+1) 点中的点可能是离群值,没有安全的地方可供选择:无论您选择单形中的哪个点,离群值都可能是来自最接近的单纯形顶点的所有点,并且您将位于非正则点的外壳之外离群值。

如果您愿意忍受更差的击穿点,更像,则可以使用一种随机方法来找到一个在nd中都为多项式的深点:请参阅我的论文O(1/d2)nd

用迭代的Radon点近似中心点,K。Clarkson,D.Eppstein,GL Miller,C.Sturtivant和S.-H。滕, 第9届ACM征兆。比较 几何 ,圣地亚哥,1993年,第91-98页, 诠释。J.比较 几何 和应用 6(3):357-377,1996年,http://kenclarkson.org/center/p.pdf


是的 另外,我想提到的是,可以使用eps网络net近似值及其各种朋友作为一种获取近似于这种深度度量的小样本的方法。您不会得到任何一点,但是您会获得更多信息。
Sariel Har-Peled

使用您的论文术语,是否有已知的有效方法来验证 声称的有理数中心βββ

如果用“有效的”来表示维的多项式,那么我不知道这样的结果。我的论文仅发现了一点,而没有为您提供有关深度的空间分布的更多信息(例如Sariel所提到的)。
David Eppstein

谢谢!暂时不考虑效率问题,这似乎是在说对于任意凸集的一般情况,有没有办法将恒定概率提高到任意概率?(因为要点的分数必须大于?(或者我是否错过了一些东西?回顾一下,感觉就像我拥有的​​第二种表述没有抓住“独立重复”的概念,在这里我们将掌握组点,每组至少有至少一个2/3的良好点分数)。11d+12/3
克莱门特C.

1
一个点,或者几个点,或者不是,如果您只知道存在一个凸集而不是它的位置,并且您希望能够提高出现在正确集合中的概率,那么d /(d + 1),那么良好点的分数至少应为d /(d + 1)才能绕过单纯形示例。否则,对手可能会以单形形式为您提供数据,并随机选择单形的一个面的以epsilon为邻的凸集。即使您随机猜出单纯形顶点附近的点,您也有至少1 /(d + 1)个错误选择的可能性。
David Eppstein 2015年

14

这是一个整洁的问题,我之前已经考虑过。这是我们想到的:

你运行你的算法次获得输出X 1X ñ[R d,你知道什么是高概率很大一部分的X 落进一些好的设置。您不知道G是什么,仅仅是G是凸的。好消息是,有一种方法可以在G中获得要点,而无需进一步的信息。将此点称为f x 1x nnx1,,xnRdxiGGGf(x1,,xn)

定理。对于所有自然数d,都有一个函数f R d nR d,使得以下成立。令x 1X Ñ[R d和让ģ ř ð是满足凸集1ndf:(Rd)nRdx1...xnRdGRd然后˚FX1XÑģ。而且,f可在nd的时间多项式中计算。
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

注意,对于,我们可以将f设置为中位数。因此,这说明了如何推广d > 1的中位数。d=1fd>1

之前证明了这个结果,需要注意的是紧张:咱们,让X 1X d是标准的基础元素和X d + 1 = 0。的任意子集d的点的被包含在仿射空间ģ尺寸d - 1(其被唯一地由这些点定义的)。但是所有这些仿射空间都没有任何意义。因此,有一些凸ģ包含Ñ d /d +n=d+1x1,,xdxd+1=0dGd1G点,但不包含 f x 1x n,无论取什么值。nd/(d+1)=df(x1,,xn)

证明。我们使用以下结果。

Helly定理。R d的凸子集。假设任何d + 1 K i s 的交集都是非空的。那么所有K i s 的交集都是非空的。K1...KmRdd+1 KiKi

单击此处以获取Helly定理的证明。

现在证明我们的定理:

为不在G中的点数的上限。考虑所有封闭的半空间K 1ķ - [R d含有至少ñ - ķ点与他们自己的边界包含一组最大秩的点(这是半空间的有限数目,因为每个ķ 由下式定义d + 1点其边界上)。k<n/(d+1)GK1...KmRdnkKid+1

每个的补数最多包含k个点。通过结合的联合,相交任何d + 1 ķ S包含至少ñ - ķ d + 1 > 0分。根据Helly定理(由于半空间是凸的),所有K i s的交点中都有一个点。我们让f为一个计算K i s 交点中任意点的函数。Kikd+1 Kink(d+1)KisfKi

剩下的一切只是为了证明 s 的交集包含在G中KiG

不失一般性,是具有完整等级的点的子集的凸包。也就是说,我们可以用G包含的点的凸包替换G。如果这还不完整,我们可以简单地在较低维度上应用我们的定理。GG

每个面都定义一个半空间,其中G是这些半空间的交集。这些半空间每个都包含G,因此至少包含n - k个点。这些半空间之一的边界包含G的面,因此包含一组最大秩的点。因此,这些半空间中的每一个都是K i。因此,所有的交集ķ s的包含在ģ,根据需要。GGGnkGKiKiG

为了计算,建立一个线性程序,其中线性约束对应于K i s,而可行解对应于所有K i s 的交点。 优质教育fKiKi

不幸的是,此结果在高维环境中不是很实际。一个好问题是我们是否可以更有效地计算f

公开问题。用另外的结论证明上述定理,即可以在nd的时间多项式中计算fnd

另外:我们还可以更改问题以获得有效的解决方案:如果具有严格意义上超过一半位于球B y ε )中的性质,那么我们可以找到点z该在于Ý 3 ε 在时间多项式在ñd。特别地,我们可以为任意i设置z = x i,使得严格超过一半的点在B中x1,,xnB(y,ε)zB(y,3ε)ndz=xiiB(z,2ε)


我认为您基本上是在重新发明Tukey的深度,因为David Eppstein概述如下:)
Suresh Venkat

7

在高维和一般规范中都有一组点的中位数的概念,这以各种名称而闻名。仅仅是使集合中所有点的距离之和最小的点。众所周知,它具有与通常的中值相似的置信度放大特性,并且距离相乘很小。您可以在本文的定理3.1中找到详细信息:http : //arxiv.org/pdf/1308.1334.pdf

本文显示的一件好事是,如果可以从任意高(但常数<1)的置信度中进行放大,则可以将距离增加的因子设为任何常数> 1。

编辑:Hsu和Sabato对此主题发表了另一篇最新文章http://arxiv.org/pdf/1307.1827v6.pdf 它主要分析并应用将中间距离最小的集合中的点应用于其余部分的过程点的使用。此过程可用于任何度量标准,但只能得出近似因子3。


谢谢,这看起来不错!到目前为止,我只是略读了一下,但是(除非我弄错了或跳过得太快了),它处理了p球的特殊情况。那是对的吗?Sp
Clement C.

1
并不是的。说明了所有Banach空间的结果。对于以原点为中心并围绕其中心对称的任何实体,都有一个相应的标准,其中该实体为单位球。因为出于您的问题的目的,我们可以不失一般性地假定凸体以原点为中心,所以对于每个中心对称的凸体,结果都成立。也许只需稍作努力,结果就可以扩展到一般凸体。
维塔利

1
但是,您需要知道该规范才能计算出该规范的最小化器-如果仅知道存在一个规范但不知道它是什么,那么您就不走运了。
David Eppstein 2015年

1
你说得对,大卫。您需要了解规范。(这意味着知道凸体到中心并缩放)。
维塔利2015年

我曾考虑过这种方法,但后来想到了关于任意凸集的反例。它如何影响这些结果?让可以在平面分布如下:以概率0.9上,均匀的- 1 0 + 1 0 ,以概率0.1,等于0 0.0001 。凸“好”集是从所述线- 1 0 1 0 X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0)。但是,如果我们采取许多样品,则广义位将位于采样点中的一个。使用超平面和稍微偏移的点可以轻松地将其推广到更高的尺寸。(0,0.0001)
usul
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.