通常,维数的诅咒使在空间中搜索的问题变得更加困难,并且影响了大多数通过对向量空间进行分区来“学习”的算法。优化问题的维数越高,填充需要进行优化的空间所需的数据就越多。
广义线性模型
线性模型遭受了维度诅咒的极大折磨。线性模型将空间划分为单个线性平面。即使我们不希望直接计算
β^=(X′X)−1X′y
提出的问题对共线性仍然非常敏感,并且可以在没有某种类型的正则化的情况下视为“病态”。在维数很高的空间中,可以为您的数据拟合一个以上的平面,并且如果没有适当类型的正则化会导致该模型的行为非常差。具体来说,正则化的作用是试图迫使一种独特的解决方案存在。L1和平方L2正则化都试图最小化权重,并且可以解释为选择权重最小的模型作为最“正确”的模型。可以将其视为Occams Razor的数学公式。
决策树
决策树还遭受维度诅咒。决策树直接在每个节点上划分样本空间。随着样本空间的增加,数据点之间的距离也增加,这使得找到“良好”分割变得更加困难。
随机森林
随机森林使用决策树的集合进行预测。但是,不是使用问题的所有功能,而是单独的树仅使用这些功能的子集。这样可以最小化每棵树正在优化的空间,并且可以帮助解决维数诅咒的问题。
Boosted Tree的
Boosting算法(例如AdaBoost)会遭受维度的诅咒,如果不使用正则化,则往往会变得过拟合。我不会更深入,因为该帖子AdaBoost是越来越少还是更容易过度拟合?
解释了为什么比我更好的原因。
神经网络
神经网络很奇怪,因为它们既受也不依赖于依赖于体系结构,激活,深度等的维数诅咒。因此,要重申维数诅咒是一个问题,即在高层次上需要大量的点覆盖输入空间的尺寸。解释深度神经网络的一种方法是认为所有层都希望最后一层是将高维流形复杂地投影到低维流形中,然后将最后一层分类在最顶层。因此,例如,在最后一层是softmax层的卷积分类网络中,我们可以将体系结构解释为在较小的维度上进行非线性投影,然后对该投影进行多项式逻辑回归(softmax层)。因此,从某种意义上说,我们数据的压缩表示形式使我们能够规避维度的诅咒。同样,这是一种解释,实际上,维数的诅咒确实会影响神经网络,但与上述模型的层次不同。
SVM
由于发生过度的正则化,SVM往往不会像广义线性模型那样过度拟合。有关更多详细信息,请查看此文章SVM,过拟合,尺寸诅咒。
K-NN,K-Means
K均值和K-NN都受到维度诅咒的极大影响,因为它们均使用L2平方距离度量。随着维度数量的增加,各个数据点之间的距离也随之增加。这就是为什么您需要更多的点来覆盖更多的空间,从而希望距离会更具描述性。
随意询问有关模型的细节,因为我的回答相当笼统。希望这可以帮助。