今天,“最近的邻居”何时有意义?


19

在1999年,Beyer等人。问, “最近的邻居”何时有意义?

自1999年以来,是否有更好的方法来分析和可视化距离平坦度对NN搜索的影响?

[给定的]数据集是否可以为1-NN问题提供有意义的答案?10-NN问题?100-NN问题?

您的专家今天将如何处理这个问题?


1月24日星期一编辑:

“距离变白”作为“随着尺寸增加的距离平坦度”的简称呢?

观察“距离泛白”的一种简单方法是运行2-NN,并绘制到最近邻居和第二近邻的距离。下图显示 了蒙特卡洛(Monte Carlo)对于一系列ncluster和尺寸的dist 1和dist 2。此示例显示了缩放的绝对差| dist 2 -dist 1 |的相当好的距离对比度。(相对差| dist 2 / dist 1 |→1作为维数→∞,因此变得毫无用处。)

在给定的上下文中应该使用绝对误差还是相对误差,当然取决于存在的“真实”噪声:困难。

建议:总是运行2-NN;2个邻居在靠近时很有用,在不靠近时有用。

在此处输入图片说明


7
Beyer等。似乎正在解决NN问题的一些不同方面。但是,出于(二进制)分类的目的,在温和的条件下,经典的结果是,在最坏的情况下,1-NN分类具有渐近出现的贝叶斯(即最佳)分类器错误概率的两倍。换句话说,最接近的邻居包含最佳分类器所做的“至少一半的信息”。从这个意义上讲,1-NN似乎很重要。(有关更多信息,请参见Cover&Hart(1967)。我很惊讶Beyer等人没有引用它。)
红衣主教

@ cardinal,Cover-Hart界限似乎根本不取决于尺寸,因为您说的是不同的方面?
denis

是的,我相信这是对的,这在很大程度上是我提出这一观点的。1-NN在这种意义上似乎非常相关,即,它在特征空间的维度上(如此)(理论上)良好地工作,这一事实似乎有助于它独立存在,无论最近和最近的行为如何。最远的邻居在较大的空间中。这让我想知道Beyer是否了解所有(经典)结果。
主教

@cardinal Cover and Hart第24页的顶部看起来像是一个可能在其证明中出现问题的地方,在这一步骤中Cover和Hart认为X中的每个RV x \具有X的每个开放球具有的属性非零量度。如果考虑超球面的几何形状,我们会看到超球面内部的体积随着尺寸的增加而缩小,因此,在极限情况下,关于x的开放球在其内部仅包含x。或者,通过SLLN,度量空间X中的iid RVs x都以概率1处在超球面中。
鲍勃·杜兰特 Bob Durrant)

Answers:


10

对于这个问题,我没有完整的答案,但是我可以在某些分析方面给出部分答案。警告:自下面的第一篇论文以来,我一直在研究其他问题,所以很可能还有其他我不知道的好东西。

首先,我认为值得注意的是,尽管他们的论文标题是“最近的邻居何时有意义”,但Beyer等人实际上回答了一个不同的问题,即NN 什么时候没有意义。在“最接近的邻居何时有意义”的逆向定理和蕴涵中,我们在样本量的一些其他适度假设下证明了它们定理的反面。复杂性杂志,25(4),2009年8月,第385-397页。并表明在某些情况下(理论上)不会出现距离的集中(我们举了一些例子,但本质上非噪声特征的数量需要随维数的增长而增加,因此实际上在实践中很少出现)。本文引用的参考文献1和7提供了一些示例,这些示例可以在实践中缓解距离集中的问题。

我的主管Ata Kaban的论文研究了尽管应用了“某些数据约简技术的距离集中度意识”中的降维技术,但这些距离集中问题是否仍然存在 模式识别。刊44,2011年2月,第265-277页。。那里也有一些不错的讨论。

Radovanovic等人的最新论文《太空中的中心:高维数据中的最近邻居》。JMLR,11(Sep),2010年9月,第2487-2531页。讨论“柔度”问题,即当一小部分点属于许多标记观察结果的最近邻居时。另请参见网上的第一作者的博士学位论文。k


感谢Bob,+ 1。一个相关的问题,您是否有选择分数q的值的经验法则(或者我应该将其作为一个单独的问题来问)?
丹尼斯

@Denis可能值得提出一个问题,因为我认为它既取决于数据又取决于应用程序。这些形式为分数度量在形式上> p > 1时并不是真正的度量(例如,三角形不等式的含义相反,因此它们是非凸的),随着p的增加,您将收敛的q=1/pp>1pl0p=1个1个q=1个/pp>1p

鲍勃,不是|ajbj|q1/q<q<

p

3

您可能还对Goldberger等人的邻域成分分析感兴趣。

在这里,通过随机最近邻选择学习线性变换,以最大化预期的正确分类点。

作为副作用,从数据确定邻居的(预期)数量。


谢谢拜耳。似乎“距离度量学习”正在蓬勃发展-Scholar.goo自2008年以来拥有50个标题。但是繁荣论文是真的吗?脚注,nca的代码表示“迭代...至少需要100000才能获得良好结果”。脚注2,有关距离度量学习的大部分工作似乎都在模拟马哈拉诺比斯距离。您知道其他距离模型吗?
丹尼斯

我在NCA上有不同的经验-它通常对我来说收敛很快。LeCun检出了“通过学习不变映射来减少维数”,Norouzi检出了“最小损失散列的紧凑型二进制代码”。
bayerj 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.