Answers:
在PCA的情况下,“方差”是指总结方差或多元变性或整体变化性或总变化。以下是一些3个变量的协方差矩阵。它们的方差在对角线上,这3个值的总和(3.448)是整体可变性。
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
现在,PCA用新变量(称为主成分)替换了原始变量,这些主变量是正交的(即它们具有零协变量),并且具有递减的方差(称为特征值)。因此,从上述数据中提取的主成分之间的协方差矩阵为:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
请注意,对角线总和仍为3.448,这表示所有3个分量均占所有多变量变异性。第一个主成分占或“解释”了1.651 / 3.448 =总体可变性的47.9%;第二个解释是1.220 / 3.448 = 35.4%;第三个解释为.577 / 3.448 =它的16.7%。
那么,当他们说“ PCA最大化方差 ”或“ PCA解释最大方差 ” 时,它们是什么意思?当然,这并不是在三个值中找到最大的方差1.343730519 .619205620 1.485549631
。PCA在数据空间中找到总体方差中方差最大的维(方向)。最大的变化是。然后,在剩余的总体方差中找到与第一个方差正交的第二大方差的维数。第二维就是方差。等等。最后剩下的维度是方差。另请参见“ Pt3” 和此处的详细答案1.343730519+.619205620+1.485549631 = 3.448
1.651354285
3.448-1.651354285
1.220288343
.576843142
详细解释它是如何完成的。
在数学上,PCA通过称为本征分解或svd分解的线性代数函数执行。这些函数将一次返回所有特征值1.651354285 1.220288343 .576843142
(和对应的特征向量)(请参阅,请参见)。
@ttnphns提供了一个很好的答案,也许我可以补充几点。首先,我想指出的是关于简历的一个相关问题,答案非常有力-您一定要检查一下。在下文中,我将参考该答案中显示的图。
所有三个图都显示相同的数据。注意,数据在垂直和水平方向上都存在可变性,但是我们可以将大多数可变性视为对角线。在第三幅图中,那条长长的黑色对角线是第一个特征向量(或第一个主成分),并且是该主成分的长度(数据沿该线的分布,实际上不是线本身的长度),在图上绘制)是第一个特征值-这是第一个主成分所占的差异量。如果要将该长度与第二个主成分的长度(即从该对角线正交向外扩展的数据的宽度)相加,然后将其中一个特征值除以该总和,则将得到百分比由相应的主成分解释的方差。
另一方面,要了解回归中所占方差的百分比,您可以查看顶部的图。在那种情况下,红线是回归线或模型预测值的集合。解释的方差可以理解为回归线的垂直扩展度(即,从线的最低点到线的最高点)与数据的垂直扩展度(即,从最低的数据点开始)的比率到最高数据点)。当然,这只是个宽松的主意,因为从字面上看,这些是范围,而不是方差,但这应该可以帮助您理解。
请务必阅读问题。而且,尽管我提到了最佳答案,但给出的几个答案还是不错的。值得您花所有时间阅读它们。