如何解释PCA负载?


13

在阅读有关PCA时,我遇到了以下解释:

假设我们有一个数据集,其中每个数据点代表一个学生在数学测验,物理测验,阅读理解测验和词汇测验中的分数。

我们找到前两个主要成分,它们捕获了数据中90%的可变性,并解释了它们的负载。我们得出的结论是,第一个主要成分代表总体学习能力,第二个代表定量能力和语言能力之间的对比。

该文指出,PC1和PC2负载量的PC1和为PC2,并提供以下解释:0.5 0.5 - 0.5 - 0.5 (0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

第一个分量与平均分数成正比,第二个分量测量第一对分数和第二对分数之间的差。

我无法理解该解释的含义。


7
@ttnphns的答案在某种程度上涉及了许多数学细节,但是我认为最初的问题确实很简单:为什么PC1的加载矢量为(0.5、0.5、0.5、0.5)意味着第一个分量“与平均分数成比例” “?好吧,答案是,载荷与构成PC1的原始变量的线性组合的系数成正比。因此,您的第一个PC1是所有四个变量的总和乘以0.5。这意味着它与四个变量的平均值成正比。与PC2类似。我认为这回答了原始问题。
变形虫说恢复莫妮卡2014年

@amoeba-您知道遇到这么简单的加载说明有多难。不知何故,在我决定进入Google的下一个解释之前,到处都是满满的术语行。谢谢!
MiloMinderbinder

Answers:


13

荷载(不应与特征向量混淆)具有以下属性:

  1. 它们在每个分量内的平方和就是特征值(分量的方差)。
  2. 载荷是线性组合的系数,该系数通过(标准化)组件预测变量。

您从4个中提取了2台PC。荷载矩阵和特征值:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

在这种情况下,两个特征值相等。在现实世界中这是一种罕见的情况,它表示PC1和PC2具有相同的解释“强度”。

假设您还计算了组件值Nx2矩阵,并且在每一列中对其进行了z标准化(平均值= 0,标准偏差= 1)。然后(如以上第2点所述)。但是,由于仅剩4台PC中的2台(缺少2列),因此恢复的数据值是不正确的,-会出错(如果特征值3、4不正确零)。X = C ^ 'XCX^=CAAX^

好。通过变量预测成分的系数是多少?显然,如果已满,则将为。对于非正方形加载矩阵,我们可以将它们计算为,其中是对角线矩阵,其对角线具有特征值,并且上标表示伪逆。在您的情况下:= - 1'= d ê Ë Ñ v 一个Ù ë 小号- 1 = + 'A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)+

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

因此,如果是原始中心变量(或标准化变量,如果您基于相关性而不是协方差进行PCA )的矩阵,则;是标准化的主成分评分。在您的示例中是:C = X B CXNx4C=XBC

PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4〜(X1 + X2 + X3 + X4)/ 4

“第一部分与平均分数成正比”

PC2 = 0.5 * X1 + 0.5 * X2-0.5 * X3-0.5 * X4 =(0.5 * X1 + 0.5 * X2)-(0.5 * X3 + 0.5 * X4)

“第二部分测量第一对分数和第二对分数之间的差异”

在此示例中,似乎很明显,但通常情况下它们是不同的。B=A


注意:上面用于计算组件分数的系数的公式等效于,其中为变量的协方差(或相关)矩阵。后一个公式直接来自线性回归理论。这两个公式仅在PCA上下文中等效。在因子分析中,它们不是,并且要计算因子得分(在FA中始终近似),应该依靠第二个公式。= - [R - 1řB=Adiag(eigenvalues)1B=R1AR


我的相关答案:

关于载荷与特征向量的更详细说明

如何计算主成分得分和因素得分


2
如果4个分量中有2个分量占90%的可变性,它们的特征值之和就等于2?
尼克·考克斯

尼克,我相信这是OP的问题。他没有提供数据或协方差/相关矩阵。我们从他那里得到的只是一个2台第一台PC的(相当不现实)加载矩阵。
ttnphns 2014年

3
好点,@ Nick,这的确是不可能的,因为相关矩阵的总方差必须为,所以两个特征值均为 PC都必须占变异性的。当然,我不是在向您解释此内容,而是向该线程的其他可能的读者解释。ttnphns的答案仍然是正确的(+1),我们别无选择,只能忽略OP报告的数字。4 1 50 90 4×44150%90%
变形虫说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.