今天，“最近的邻居”何时有意义？

在1999年，Beyer等人。问， “最近的邻居”何时有意义？

自1999年以来，是否有更好的方法来分析和可视化距离平坦度对NN搜索的影响？

[给定的]数据集是否可以为1-NN问题提供有意义的答案？10-NN问题？100-NN问题？

您的专家今天将如何处理这个问题？

1月24日星期一编辑：

“距离变白”作为“随着尺寸增加的距离平坦度”的简称呢？

观察“距离泛白”的一种简单方法是运行2-NN，并绘制到最近邻居和第二近邻的距离。下图显示了蒙特卡洛（Monte Carlo）对于一系列ncluster和尺寸的dist ₁和dist ₂。此示例显示了缩放的绝对差| dist ₂ -dist ₁ |的相当好的距离对比度。（相对差| dist ₂ / dist ₁ |→1作为维数→∞，因此变得毫无用处。）

在给定的上下文中应该使用绝对误差还是相对误差，当然取决于存在的“真实”噪声：困难。

建议：总是运行2-NN；2个邻居在靠近时很有用，在不靠近时有用。

在此处输入图片说明

machine-learning k-nearest-neighbour

— 丹尼斯
source

Beyer等。似乎正在解决NN问题的一些不同方面。但是，出于（二进制）分类的目的，在温和的条件下，经典的结果是，在最坏的情况下，1-NN分类具有渐近出现的贝叶斯（即最佳）分类器错误概率的两倍。换句话说，最接近的邻居包含最佳分类器所做的“至少一半的信息”。从这个意义上讲，1-NN似乎很重要。（有关更多信息，请参见Cover＆Hart（1967）。我很惊讶Beyer等人没有引用它。）

— 红衣主教

@ cardinal，Cover-Hart界限似乎根本不取决于尺寸，因为您说的是不同的方面？

— denis

是的，我相信这是对的，这在很大程度上是我提出这一观点的。1-NN在这种意义上似乎非常相关，即，它在特征空间的维度上（如此）（理论上）良好地工作，这一事实似乎有助于它独立存在，无论最近和最近的行为如何。最远的邻居在较大的空间中。这让我想知道Beyer是否了解所有（经典）结果。

— 主教

@cardinal Cover and Hart第24页的顶部看起来像是一个可能在其证明中出现问题的地方，在这一步骤中Cover和Hart认为X中的每个RV x \具有X的每个开放球具有的属性非零量度。如果考虑超球面的几何形状，我们会看到超球面内部的体积随着尺寸的增加而缩小，因此，在极限情况下，关于x的开放球在其内部仅包含x。或者，通过SLLN，度量空间X中的iid RVs x都以概率1处在超球面中。

— 鲍勃·杜兰特 Bob Durrant）

也可以看看 L1或L.5度量标准以进行聚类。

— denis

Answers:

对于这个问题，我没有完整的答案，但是我可以在某些分析方面给出部分答案。警告：自下面的第一篇论文以来，我一直在研究其他问题，所以很可能还有其他我不知道的好东西。

首先，我认为值得注意的是，尽管他们的论文标题是“最近的邻居何时有意义”，但Beyer等人实际上回答了一个不同的问题，即NN 什么时候没有意义。在“最接近的邻居何时有意义”的逆向定理和蕴涵中，我们在样本量的一些其他适度假设下证明了它们定理的反面。复杂性杂志，25（4），2009年8月，第385-397页。并表明在某些情况下（理论上）不会出现距离的集中（我们举了一些例子，但本质上非噪声特征的数量需要随维数的增长而增加，因此实际上在实践中很少出现）。本文引用的参考文献1和7提供了一些示例，这些示例可以在实践中缓解距离集中的问题。

我的主管Ata Kaban的论文研究了尽管应用了“某些数据约简技术的距离集中度意识”中的降维技术，但这些距离集中问题是否仍然存在。模式识别。卷刊44，2011年2月，第265-277页。。那里也有一些不错的讨论。

Radovanovic等人的最新论文《太空中的中心：高维数据中的最近邻居》。JMLR，11（Sep），2010年9月，第2487-2531页。讨论“柔度”问题，即当一小部分点属于许多标记观察结果的最近邻居时。另请参见网上的第一作者的博士学位论文。 $k$

— 鲍勃·杜兰特
source

感谢Bob，+ 1。一个相关的问题，您是否有选择分数q的值的经验法则（或者我应该将其作为一个单独的问题来问）？

— 丹尼斯

@Denis可能值得提出一个问题，因为我认为它既取决于数据又取决于应用程序。这些形式为

分数度量在形式上

并不是真正的度量（例如，三角形不等式的含义相反，因此它们是非凸的），随着

增加，您将收敛的

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

鲍勃，不是

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

您可能还对Goldberger等人的邻域成分分析感兴趣。

在这里，通过随机最近邻选择学习线性变换，以最大化预期的正确分类点。

作为副作用，从数据确定邻居的（预期）数量。

— 拜耳
source

谢谢拜耳。似乎“距离度量学习”正在蓬勃发展-Scholar.goo自2008年以来拥有50个标题。但是繁荣论文是真的吗？脚注，nca的代码表示“迭代...至少需要100000才能获得良好结果”。脚注2，有关距离度量学习的大部分工作似乎都在模拟马哈拉诺比斯距离。您知道其他距离模型吗？

— 丹尼斯

我在NCA上有不同的经验-它通常对我来说收敛很快。LeCun检出了“通过学习不变映射来减少维数”，Norouzi检出了“最小损失散列的紧凑型二进制代码”。

— bayerj 2011年