居中如何使PCA有所不同(对于SVD和本征分解)?
将数据居中(或取消定义)对PCA有什么区别?我听说它可以简化数学运算,也可以防止第一台PC被变量的均值控制,但是我觉得我还不能完全掌握这个概念。 例如,此处的最佳答案是如何使数据居中摆脱回归和PCA中的截距?描述了不居中如何将第一个PCA拉过原点,而不是点云的主轴。基于我对如何从协方差矩阵的特征向量中获得PC的理解,我不明白为什么会发生这种情况。 而且,我自己进行的有无居中的计算似乎毫无意义。 考虑irisR 中的数据集中的setosa花。我按如下方式计算了样本协方差矩阵的特征向量和特征值。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 如果我首先对数据集进行居中,则会得到完全相同的结果。这似乎很明显,因为居中根本不会改变协方差矩阵。 df.centered <- scale(df,scale=F,center=T) e.centered<- …