对特征向量的视觉解释感到困惑:视觉上不同的数据集如何具有相同的特征向量?


10

许多统计教科书提供了一个直观的说明协方差矩阵的特征向量是:

在此处输入图片说明

向量uz形成本征向量(本征轴)。这是有道理的。但是令我困惑的一件事是,我们从相关矩阵中提取特征向量,而不是原始数据。此外,完全不同的原始数据集可以具有相同的相关矩阵。例如,以下两个都具有以下相关矩阵:

[10.970.971]

特征向量

因此,它们的特征向量指向相同的方向:

[.71.71.71.71]

但是,如果对特征向量在原始数据中的哪个方向应用相同的视觉解释,则会得到指向不同方向的向量。

有人可以告诉我我哪里出问题了吗?

第二次编辑:如果我这么大胆,下面给出了出色的答案,我就能够弄清混乱并作了说明。

  1. 视觉解释与以下事实相吻合:从协方差矩阵提取的特征向量是不同的。

    协方差和特征向量(红色):

    [1111][.7.72.72.7]

    协方差和特征向量(蓝色):

    [.25.5.51][.43.9.9.43]
  2. 相关矩阵反映了标准化变量的协方差矩阵。目视检查标准变量表明了为什么在我的示例中提取相同的特征向量:

在此处输入图片说明


3
如果要评估相关性,则必须使用比例绘制散点图,其中各个分量的标准偏差相等。在您的任何图像中都不是这种情况(第二幅图像中的红点除外),这可能是您感到困惑的原因之一。
ub

3
感谢您阐明了您的问题。这可以帮助人们理解它,并增加线程的价值以供将来参考。但是要注意,约10%的男人是红绿色色盲。有2种颜色,红色和蓝色可能更安全。
gung-恢复莫妮卡

非常感谢,我已按照您的建议纠正了颜色
Sue Doh Nimh 2014年

2
没问题,@ SueDohNimh。感谢您让所有人理解。另一方面,我会保留[PCA]标签。如果您想重新关注该问题,或者提出一个新的(相关的)问题并链接到该问题,这似乎很好,但是我认为这个问题对PCA来说足够值得标记。
gung-恢复莫妮卡

干得好,@ SueDohNimh。如果愿意,也可以将其添加为您自己的问题的答案,而不是进行编辑。
gung-恢复莫妮卡

Answers:


9

您不必对相关矩阵进行PCA;您也可以分解协方差矩阵。请注意,这些通常会产生不同的解决方案。(有关此内容的更多信息,请参见:有关相关性或协方差的PCA?

在第二个图中,相关性是相同的,但组看起来不同。它们看起来不同,因为它们具有不同的协方差。但是,方差也不同(例如,红色组在X1的较大范围内变化),并且相关性是协方差除以标准偏差()。结果,相关性可以相同。 Covxy/SDxSDy

同样,如果使用协方差矩阵对这些组执行PCA,则将获得与使用相关矩阵不同的结果。


2
+1您可能还已经注意到,对于两个变量,相关矩阵始终具有相同的两个特征向量和,无论相关值是多少。1 - 1 (1,1)(1,1)
ub

1
@whuber写的是+1,但请注意,相应的特征值确实取决于相关值。
变形虫

的确如此,但是Cov矩阵的特征向量可以基于相关性而变化。
gung-恢复莫妮卡

1
大家好,非常感谢。我知道使用协方差矩阵会产生不同的特征向量。这是另一个令人担忧的问题,因为我让我担心,通过使用相关矩阵,我减少了正在使用的信息,因此准确性降低了。根据您的回答得出明智的结论,即所提供的视觉解释仅真正适用于原始数据协方差矩阵的特征向量,而不适用于相关矩阵,是否明智?
苏多尼姆

1
不是,@ SueDohNimh。您可以使用视觉解释,如果要使用相关矩阵,则只需先对变量进行标准化。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.