PCA和方差比例说明


90

通常,用第一个主成分来解释像PCA这样的分析中的方差分数是什么意思?有人可以直观地解释这一点,但也可以就主成分分析(PCA)给出“解释方差”的精确数学定义吗?X

对于简单的线性回归,总是将最佳拟合线的r平方描述为所解释的方差的比例,但我也不知道该怎么做。这里的方差比例是否只是点与最佳拟合线的偏差的延伸?


另请参阅问题/标记/回归+效果大小 -> Abelson,《方差解释悖论》,1985年,第5页。
denis 2014年

Answers:


103

在PCA的情况下,“方差”是指总结方差多元变性整体变化性总变化。以下是一些3个变量的协方差矩阵。它们的方差在对角线上,这3个值的总和(3.448)是整体可变性。

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

现在,PCA用新变量(称为主成分)替换了原始变量,这些主变量是正交的(即它们具有零协变量),并且具有递减的方差(称为特征值)。因此,从上述数据中提取的主成分之间的协方差矩阵为:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

请注意,对角线总和仍为3.448,这表示所有3个分量均占所有多变量变异性。第一个主成分占或“解释”了1.651 / 3.448 =总体可变性的47.9%;第二个解释是1.220 / 3.448 = 35.4%;第三个解释为.577 / 3.448 =它的16.7%。

那么,当他们说“ PCA最大化方差 ”或“ PCA解释最大方差 ” 时,它们是什么意思?当然,这并不是在三个值中找到最大的方差1.343730519 .619205620 1.485549631。PCA在数据空间中找到总体方差中方差最大的(方向)。最大的变化是。然后,在剩余的总体方差中找到与第一个方差正交的第二大方差的维数。第二维就是方差。等等。最后剩下的维度是方差。另请参见“ Pt3” 和此处的详细答案1.343730519+.619205620+1.485549631 = 3.4481.6513542853.448-1.6513542851.220288343.576843142 详细解释它是如何完成的。

在数学上,PCA通过称为本征分解或svd分解的线性代数函数执行。这些函数将一次返回所有特征值1.651354285 1.220288343 .576843142(和对应的特征向量)(请参阅请参见)。


1
您的意思是什么:“请注意,对角线总和仍为3.448,这表示所有3个分量都占了所有变量的可变性”,您的方法与PoV(变异率)之间有什么区别?
kamaci 2012年

2
我不建议任何“方法”。我只是解释说,所有PC都与原始变量具有相同的总可变性。
ttnphns 2012年

你可以检查我的问题:stats.stackexchange.com/questions/44464/...
kamaci

对不起:-(我目前还不能有太多的意见调。
ttnphns

1
如果您只是阅读问题,那就足够了。没有评论。
kamaci 2012年

11

@ttnphns提供了一个很好的答案,也许我可以补充几点。首先,我想指出的是关于简历的一个相关问题答案非常有力-您一定要检查一下。在下文中,我将参考该答案中显示的图。

所有三个图都显示相同的数据。注意,数据在垂直和水平方向上都存在可变性,但是我们可以将大多数可变性视为对角线。在第三幅图中,那条长长的黑色对角线是第一个特征向量(或第一个主成分),并且是该主成分的长度(数据沿该线的分布,实际上不是线本身的长度),在图上绘制)是第一个特征值-这是第一个主成分所占的差异量。如果要将该长度与第二个主成分的长度(即从该对角线正交向外扩展的数据的宽度)相加,然后将其中一个特征值除以该总和,则将得到百分比由相应的主成分解释的方差。

另一方面,要了解回归中所占方差的百分比,您可以查看顶部的图。在那种情况下,红线是回归线或模型预测值的集合。解释的方差可以理解为回归线的垂直扩展度(即,从线的最低点到线的最高点)与数据的垂直扩展度(即,从最低的数据点开始)的比率到最高数据点)。当然,这只是个宽松的主意,因为从字面上看,这些是范围,而不是方差,但这应该可以帮助您理解。

请务必阅读问题。而且,尽管我提到了最佳答案,但给出的几个答案还是不错的。值得您花所有时间阅读它们。


3

对原始问题有一个非常简单,直接和精确的数学答案。

ÿ1个ÿ2ÿp[R一世2

一种1个一种2一种pPC1个=一种1个ÿ1个+一种2ÿ2++一种pÿp一世=1个p[R一世2ÿ一世|PC1个

从这个意义上讲,您可以将第一台PC解释为“已解释方差”的最大化,或更准确地说,是“已解释总方差”的最大化。

b一世=C×一种一世C0

有关原始文献和扩展名的参考,请参见

Westfall,PH,Arias,AL和Fulton,LV(2017)。使用相关性教授主成分,多元行为研究,52,648-660。


0

ÿ=一种+ÿ一种ÿ一种ÿ一种v一种[Rÿ=v一种[R一种+v一种[R+2CØv一种一种b0+b1个XËÿ=b0+b1个X+Ëÿb0+b1个X

ÿ


您应检查公式中Y的方差:这是不正确的。但是,更重要的是,尝试进行回归解释并不能正确地描述PCA的特征,也不能正确地描述人们对其进行思考和使用的方式。
ub

1
Ty,修正了公式中的错误。我的答案是问题的第二部分,即回归线解释的方差比例。
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.