Answers:
这是一个非常广泛的问题,我认为不可能在一个答案中全面涵盖。因此,我认为提供一些指向相关答案和/或资源的指示会更有益。通过提供以下我的信息和想法,我正是这样做的。
首先,我要提到Microsoft Research提供的Burges(2009)关于降维的出色而全面的教程。在整本专着中,他经常谈到数据的高维方面。这项工作将降维称为降维,从理论上介绍了该问题,提出了降维方法的分类法,包括投影方法和流形建模方法,并对每个类别中的多种方法进行了概述。
审查的“ 投影追踪”方法包括独立成分分析(ICA),主成分分析(PCA)及其变体,例如内核PCA和概率PCA,典范相关分析(CCA)及其内核CCA变体,线性判别分析(LDA) ),内核尺寸缩减(KDR)等。审查的流形方法包括多维缩放(MDS)及其标志性MDS变化,Isomap,局部线性嵌入以及图形方法,例如Laplacian特征图和光谱聚类。如果您无法通过在线(上面的链接)或离线(参考)来访问原始出版物,我将在这里列出大多数经过审查的方法。
还有一个需要注意的术语“全面的”,我已经应用到上述工作。虽然确实相当全面,但这是相对的,因为在专着中并未讨论某些降维方法,尤其是那些针对不可观察(潜在)变量的方法。不过,其中一些参考其他资料也被提及-一本关于降维的书。
现在,我将通过参考我相关或相关的答案来简要介绍该主题的几个较狭窄的方面。关于高维数据的最近邻(NN)型方法,请在此处查看我的答案(我特别建议检查清单中的第4号论文)。维数诅咒的影响之一是高维数据经常是稀疏的。考虑到这个因素,我相信我的相关答案在这里和这里的回归和PCA的稀疏和高维数据可能会有所帮助。
参考文献
伯吉斯(CJC)(2010)。降维:导览。《机器学习的基础与趋势》,2(4),275-365。doi:10.1561 / 2200000002