高维数据:了解哪些有用的技术?


14

由于维数的各种诅咒,许多常见的预测技术的准确性和速度在高维数据上会下降。什么是最有效地处理高维数据的最有用的技术/技巧/启发式方法?例如,

  • 某些统计/建模方法在高维数据集上表现良好吗?
  • 我们是否可以通过使用某些(定义距离的替代概念)或(定义点积的替代概念)来提高高维数据预测模型的性能?
  • 高维数据降维最有用的技术是什么?

Answers:


10

这是一个非常广泛的问题,我认为不可能在一个答案中全面涵盖。因此,我认为提供一些指向相关答案和/或资源的指示会更有益。通过提供以下我的信息和想法,我正是这样做的。

首先,我要提到Microsoft Research提供的Burges(2009)关于的出色而全面的教程。在整本专着中,他经常谈到数据的高维方面。这项工作将降称为降维,从理论上介绍了该问题,提出了维方法的分类法,包括投影方法流形建模方法,并对每个类别中的多种方法进行了概述

审查的“ 投影追踪”方法包括独立成分分析(ICA)主成分分析(PCA)及其变体,例如内核PCA概率PCA典范相关分析(CCA)及其内核CCA变体,线性判别分析(LDA) )内核尺寸缩减(KDR)等。审查的流形方法包括多维缩放(MDS)及其标志性MDS变化,Isomap局部线性嵌入以及图形方法,例如Laplacian特征图光谱聚类。如果您无法通过在线(上面的链接)或离线(参考)来访问原始出版物,我将在这里列出大多数经过审查的方法。

还有一个需要注意的术语“全面的”,我已经应用到上述工作。虽然确实相当全面,但这是相对的,因为在专着中并未讨论某些降维方法,尤其是那些针对不可观察(潜在)变量的方法。不过,其中一些参考其他资料也被提及-一本关于降维的书。

现在,我将通过参考我相关或相关的答案来简要介绍该主题的几个较狭窄的方面。关于高维数据的最近邻(NN)型方法,请在此处查看我的答案(我特别建议检查清单中的第4号论文)。维数诅咒的影响之一是高维数据经常是稀疏的。考虑到这个因素,我相信我的相关答案在这里这里回归PCA稀疏和高维数据可能会有所帮助。

参考文献

伯吉斯(CJC)(2010)。降维:导览。《机器学习的基础与趋势》,2(4),275-365。doi:10.1561 / 2200000002


0

亚历山大·亚历山大(Aleksander)给出了非常全面的答案,但有一些被广泛起诉:

对于降维,使用PCA,但是仅进行线性变换,对于非线性降维,流形学习是您想要的。

可以使用内核将较低维度的数据投影到较高维度。当分类器无法找到当前维中的线性分离平面,但能够找到将高维中的类分离的线性超平面时,通常可以执行此操作。内核在SVM中被广泛使用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.