高维特征空间中的K参数最近邻等非参数方法


11

k最近邻的主要思想考虑了最近点,并通过多数表决决定数据的分类。如果是这样,那么它在高维数据中应该不会有问题,因为像位置敏感的哈希这样的方法可以有效地找到最近的邻居。ķ

此外,利用贝叶斯网络进行特征选择可以减少数据量并简化学习过程。

但是,约翰·拉弗蒂(John Lafferty)在统计学习中的这篇评论文章指出,高维特征空间中的非参数学习仍然是一个挑战,尚未解决。

怎么了?


1
请提供本文的完整参考;作者似乎没有(突出)出现在其中。
拉斐尔

Answers:


5

这个问题被称为维数诅咒。基本上,随着您增加维数,空间中的点通常趋向于远离所有其他点。这使得划分空间非常困难(例如对于分类或聚类而言是必需的)。d

您可以轻松地自己看到这一点。我从1..1000的 20个均匀选择的d值中,在单元超立方体中生成了随机d维点。对于d的每个值,我计算了从第一个点到所有其他点的距离,并取这些距离的平均值。对此进行绘制,即使在每个维度中生成点的空间保持不变,我们也可以看到平均距离随维度而增加。50dd1..1000d

平均距离与尺寸


当然。您在维数固定半径的超球体中的点数呈指数增加,因此,如果随机地均匀选择50个点,必须这样做。因此,如果您的推论是正确的,那么在我有很多样本的情况下,分区应该变得容易;是这样吗?
拉斐尔

我相信你已经扭转了。通过增加维数,我减少了超球体内的点数。划分变得更加困难,因为距离的度量实际上失去了其含义(例如,所有事物都在很远的地方)。
Nick

我的意思是:点的总数在半径的超球中说ñ ñ,即| Ñ Ñ小号Ñķ | 随着n增加。ķññ|ññ小号ñķ|ñ
拉斐尔

还要注意的是,当他们指高维空间的人意味着什么样的数量,,比每个点的维数要少得多d,(ñ < < d)。因此,在这些问题中,您假定您没有“许多样本”。ñdñ<<d
尼克

我不认为这符合定义。不过,这似乎是基于经验的惯例。
拉斐尔

3

这不是一个完整的答案,但是您引用的Wikipedia页面指出:

如果存在嘈杂或不相关的特征,或者特征尺度与其重要性不符,则会严重降低k-NN算法的准确性。

在存在高维特征空间的情况下,发生这种情况的可能性增加。


但是我认为使用PCA(原理成分分析)或其他任何方法来降低维数并删除不相关的数据,k-NN仍然可以工作。维基百科页面的意思是幼稚的k-NN将失败。因此,这并不能解释该评论文件。
Strin 2012年

PCA当然可以工作,但并非在所有情况下都可以。
戴夫·克拉克2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.