PCA仅保留较大的成对距离是什么意思?


10

我目前正在阅读t-SNE可视化技术,有人提到使用主成分分析(PCA)来可视化高维数据的缺点之一是它仅保留了点之间的较大成对距离。在高维空间中相距较远的意义点在低维子空间中也将相距较远,但除此之外,所有其他成对距离都将被搞砸。

有人可以帮助我理解为什么会这样吗?它在图形上意味着什么?


PCA与Euclidian和Mahalanobis距离密切相关,后者在较高维度上是近视的,因此看不到很小的距离。
阿萨卡(Aksakal)

还应注意,PCA,被视为最简单的度量MDS,是关于重建平方欧几里德距离的。香气,小距离的精度受到影响。
ttnphns 2015年

Answers:


8

考虑以下数据集:

PCA数据集

PC1轴使投影的方差最大化。因此,在这种情况下,它显然将从左下角到右上角成对角线:

PCA仅保留较大的成对距离

原始数据集中的最大成对距离位于这两个偏远点之间;请注意,它几乎完全保留在PC1中。每个外围点与所有其他点之间的配对距离较小,但仍然很大。那些也保存得很好。但是,如果您查看中心群集中各点之间的更小的成对距离,那么您会发现其中一些点严重失真。

我认为这提供了正确的直觉: PCA找到具有最大方差的低维子空间。最大方差意味着子空间将趋于对齐,以便靠近远离中心的点;因此,最大的成对距离将趋于被很好地保留,而较小的成对距离则较少。

但是,请注意,这不能转化为形式上的争论,因为实际上不一定是正确的。看一下我的答案:主成分分析和多维缩放之间有什么区别?如果从上图中取个点,构造成乘的成对距离矩阵,并询问什么是将距离保持得尽可能近的一维投影,那么答案是由MDS解决方案给出的,而不是PC1。但是,如果考虑成对居中的标量积的 ×矩阵,则它1010×1010×10实际上,最好由PC1精确保存(请参见我的回答以获取证明)。有人可能会说,成对的大距离通常也意味着大的标量积。实际上,一种MDS算法(经典/ Torgerson MDS)愿意明确地做出此假设。

总结一下:

  1. PCA旨在保留成对的标量积矩阵,从这个意义上说,原始标量积和重构标量积之间的平方差之和应最小。
  2. 这意味着它宁可保留绝对值最大的标量积,也不会关心绝对值小的标量积,因为它们对平方误差之和的增加较小。
  3. 因此,PCA保留较大的标量产品要好于较小的标量产品。
  4. 成对的距离将仅被保留,因为它们与标量乘积相似,而通常但并非总是如此。如果是这样,则较大的成对距离也将比较小的成对保留。

我认为这不是正确的视觉效果。它没有显示出随着维数的增加,情况如何变得更糟
Aksakal

2
我不确定我是否明白你的意思,@ Aksakal。考虑以您的观点发布替代答案。我认为在2D中已经存在更好地保存大于较小的成对距离的效果,并且无需考虑高维数就能了解发生了什么。因此,我专注于一个简单的2D示例。
变形虫

您绘制的内容将适用于任何方法。我可以说很远的两点,并认为它们超出了其余部分。欧几里得距离的问题在于它们的动态范围会随着维数的增加而缩小
阿克萨卡尔邦2015年

+1,但我要转移一个口音,与您的有所不同(主要是第4点)。事实不是这些是距离,而是标量积(“双中心”矩阵)-毕竟,给定对角线,它们可以保留相同的信息。相反,该问题与PCA与因子分析的几率完全相似。作为PCA,Torgerson的PCoA将致力于最大程度地重建sc。产品 矩阵主要通过其对角线而不是专门控制非对角线条目将如何拟合。
ttnphns

(续)所提到的对角线的轨迹是整体可变性,并且与所有成对的平方距离的总和直接相关,而忽略了各个距离。也可以用Eckart-Young定理来表述,该定理指出,PCA重构的数据云与原始平方和最接近。也就是说,旧点与其PCA投影点之间的总平方距离最小。这与旧的成对距离-新的pw距离关系不同。
ttnphns 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.