维数诅咒对某些模型的影响是否大于对其他模型的影响?


15

我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名,这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了,我觉得它们会受到尺寸诅咒的影响。但是事实并非如此,因为这些模型使它们成为了竞争中的佼佼者。因此,回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗?

具体来说,我对以下模型感兴趣(仅因为这些是我知道/使用的模型):

  • 线性和逻辑回归
  • 决策树/随机森林/加强树
  • 神经网络
  • 支持向量机
  • 神经网络
  • k均值聚类

简短的答案肯定是,但是也许您想要您真正感兴趣的模型?我确信CV社区可以告诉您成千上万种受维度诅咒影响的不同类型的模型。因此,将注意力集中在某些类型的模型上可能有助于回答这个问题。

@RustyStatistician -我加了几个模型,我感兴趣的
迪利普·库马尔Patchigolla

我对这个问题很感兴趣,但是仍然没有答案。我该如何提高知名度,以获得答案?
Dileep Kumar Patchigolla 2015年

Answers:


17

通常,维数的诅咒使在空间中搜索的问题变得更加困难,并且影响了大多数通过对向量空间进行分区来“学习”的算法。优化问题的维数越高,填充需要进行优化的空间所需的数据就越多。

广义线性模型

线性模型遭受了维度诅咒的极大折磨。线性模型将空间划分为单个线性平面。即使我们不希望直接计算

β^=(XX)1Xy
提出的问题对共线性仍然非常敏感,并且可以在没有某种类型的正则化的情况下视为“病态”。在维数很高的空间中,可以为您的数据拟合一个以上的平面,并且如果没有适当类型的正则化会导致该模型的行为非常差。具体来说,正则化的作用是试图迫使一种独特的解决方案存在。L1和平方L2正则化都试图最小化权重,并且可以解释为选择权重最小的模型作为最“正确”的模型。可以将其视为Occams Razor的数学公式。

决策树
决策树还遭受维度诅咒。决策树直接在每个节点上划分样本空间。随着样本空间的增加,数据点之间的距离也增加,这使得找到“良好”分割变得更加困难。

随机森林
随机森林使用决策树的集合进行预测。但是,不是使用问题的所有功能,而是单独的树仅使用这些功能的子集。这样可以最小化每棵树正在优化的空间,并且可以帮助解决维数诅咒的问题。

Boosted Tree的
Boosting算法(例如AdaBoost)会遭受维度的诅咒,如果不使用正则化,则往往会变得过拟合。我不会更深入,因为该帖子AdaBoost是越来越少还是更容易过度拟合? 解释了为什么比我更好的原因。

神经网络
神经网络很奇怪,因为它们既受也不依赖于依赖于体系结构,激活,深度等的维数诅咒。因此,要重申维数诅咒是一个问题,即在高层次上需要大量的点覆盖输入空间的尺寸。解释深度神经网络的一种方法是认为所有层都希望最后一层是将高维流形复杂地投影到低维流形中,然后将最后一层分类在最顶层。因此,例如,在最后一层是softmax层的卷积分类网络中,我们可以将体系结构解释为在较小的维度上进行非线性投影,然后对该投影进行多项式逻辑回归(softmax层)。因此,从某种意义上说,我们数据的压缩表示形式使我们能够规避维度的诅咒。同样,这是一种解释,实际上,维数的诅咒确实会影响神经网络,但与上述模型的层次不同。

SVM
由于发生过度的正则化,SVM往往不会像广义线性模型那样过度拟合。有关更多详细信息请查看此文章SVM,过拟合,尺寸诅咒

K-NN,K-Means

K均值和K-NN都受到维度诅咒的极大影响,因为它们均使用L2平方距离度量。随着维度数量的增加,各个数据点之间的距离也随之增加。这就是为什么您需要更多的点来覆盖更多的空间,从而希望距离会更具描述性。

随意询问有关模型的细节,因为我的回答相当笼统。希望这可以帮助。


嗨,阿们(Amen)对我要问的所有型号都做了简洁的解释。对于我来说,线性模型的问题仍然不清楚:对于相同的尺寸,线性模型的性能是否优于k-NN和k-Means模型?当您说共线性是线性模型的问题时,您是否暗示没有(或最小)共线性,高尺寸对线性模型来说不是问题吗?
Dileep Kumar Patchigolla 2015年

很难量化线性模型在任意问题上的表现是否优于k-nn或k-means。如果您的问题是线性可分离的,那么我会将赌注放在线性模型上,而如果您的空间更复杂,我将使用k-nn。共线性使维数诅咒的问题恶化,即使没有共线性,维数诅咒仍然适用。K均值应与k-nn相同,因为它们都是邻居驱动的,并且通常使用相同的距离函数。实际上,很难量化COD的严重程度。希望这可以帮助!
Armen Aghajanyan 2015年

您对维度诅咒(CoD)的定义是什么?您的答案似乎表明,线性模型受CoD的影响最大,这具有误导性:作为一种全局方法,线性模型所遭受的痛苦要远小于诸如KNN之类的局部化方法。
Matifou
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.