如何将高维空间投影到二维平面中?


11

我在N维空间中有一组数据点。此外,在相同的N维空间中,我也有一个质心。有什么方法可以让我将这些数据点投影到二维空间中,同时将它们的相对距离信息保留在原始空间中。PCA是正确的吗?


1
如果您想保留距离,我的第一个想法就是对距离本身进行多维缩放(与PCA有关),但是据我所知,既然您拥有的是位置而不是距离,那么PCA应该为此而努力。
Glen_b-恢复莫妮卡2013年

1
@Glen_b,关键点不在于MDS是距离输入和PCA是坐标输入,但迭代MDS配合一些规模而PCA保留几个方面。因此,MDS所保留的距离比经典PCA更好。问题的答案是,是的,PCA适合,但MDS更适合。
ttnphns

1
这主要是在度量空间嵌入领域进行的研究,即如何在减少距离失真的同时减小数据的维数。
2013年

Answers:


6

解决您的问题的通用框架称为降维。您希望将数据从N维投影到2维,同时保留数据中的“基本信息”。最合适的方法取决于数据的分布,即N维流形。PCA将使用最小二乘法准则拟合平面。对于“瑞士卷”示例,这可能效果不佳:瑞士卷

更现代的方法包括内核PCA,LLE,扩散图和稀疏字典表示。关于距离保留,一些方法可以保留非欧几里得距离。


2
重要的是要注意,“降维”方法通常保留“相对距离信息”。它们是否存在,部分取决于方法,部分取决于预期的“距离”。
ub

2

正如前面的答案中提到的,有很多降维方法,要考虑的重要一件事是您要表示什么-您是否对欧几里得距离度量感兴趣?还是样本间的相似性度量?

对于前者,PCA是合适的。它通常用于连续测量,例如测量样品(动物,植物等)。不过,我也会研究较早答案中更现代的提及。

对于后者,您可能要尝试使用非欧几里德距离度量标准来比较相似性,因此存在一些好的方法,例如主成分排序(PCoA)和非度量多维标度(NMDS)。当您比较不同地区的生态群落时,就会发现一个可能使用这些生物的例子。因此,您的数据就是“计数”数据。有许多相似性指标,例如Jaccard,Sorensen,Bray-Curtis,可以有效地估计您的站点在其生物组成方面的相似程度。PCoA和NMDS基本上使您可以绘制样本(位置)以表示生态距离(相似性),并且在每个轴上都有一个位置得分。

有很多好的书籍和其他资源可用于多变量分析。在Google上搜索“整理”。此外,还有一个名为“ vegan”的R包,对于实际执行大量这项工作非常有用。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.