计算因子得分的方法,PCA或因子分析中的“得分系数”矩阵是什么?


20

根据我的理解,在基于相关性的PCA中,我们得到的是因子(在这种情况下,主成分)加载,而变量和因子之间的相关性就是什么。现在,当我需要在SPSS中生成因子得分时,我可以直接获取每个因子的每个受访者的因子得分。我还观察到,如果将“ 组件得分系数矩阵 ”(由SPSS生成)乘以标准化原始变量,则得到的分数得分与从SPSS获得的因子得分相同。

有人可以帮我了解如何计算“成分得分系数矩阵”或“因子得分系数矩阵”(通过它们可以计算因子或成分得分)吗?不同的计算因子评分方法在此矩阵上有何不同?


1
例如,此处给出一个公式stats.stackexchange.com/a/92512/3277
ttnphns 2014年

@amoeba,如果使用PCA,则“ factor score”一词的意思是“ component score”,它们是等效的。参见上面链接的答案的底部-在PCA模型中,最常用于计算FA中因子得分的公式会产生准确的(标准化的)组分得分。
ttnphns 2014年

2
SPSS将向您显示系数的矩阵,还将(标准化)分数保存为新变量,并将其添加到原始变量的数据集中。我认为OP是标准化的,然后是。而且,瞧,这就是SPSS附加到数据集的原因!因此,OP的问题是哇!是“如何计算?”。X X X B BXXX
ttnphns 2014年

@ttnphs您正确理解我的意思。但是我的问题是我假设如果我使用XB来预测每个观测值的因子排序,那么B应该是因子加载,但是在SPSS中,这是“分量得分系数矩阵”而不是“旋转因子加载”,这就是为什么我想了解“旋转因子加载”和“组件得分系数矩阵”之间的关系或差异。
Kartikeya Pandey 2014年

因此,正如我从链接中了解到的那样,我只想确定一次,如果A是旋转因子加载,则(Inverse(A))'是“组件得分系数矩阵”,也可以使用公式A⋅diag计算得出。 Inverse((
Kartikeya Pandey

Answers:


25

因子/成分分数的计算方法

经过一系列评论,我最终决定发布答案(基于评论和更多内容)。它涉及计算PCA中的组件评分和因子分析中的因子评分。

因子/组件评分由,其中是分析变量(如果PCA /因子分析基于协方差,则居中;如果基于相关性,则z-标准化)。是因子/成分得分系数(或权重)矩阵。如何估算这些权重?XF^=XX

符号

-变量(项目)的相关性或协方差,取为因子的基质/ PCA进行分析。[Rp x p

-因子/组件的矩阵载荷。这些可能是提取后的载荷(通常也表示为 A),这时潜像是正交的或实际上是正交的,或者是旋转后的载荷(正交或倾斜)。如果旋转倾斜,则必须是图案加载。Pp x m一种

-它们的(所述载荷)倾斜旋转后的因素/组件之间的相关性的矩阵。如果未执行旋转或正交旋转,则这是单位矩阵。Cm x m

-再现相关性/协方差矩阵减少,=Pc ^P'=PP'为正交的解决方案),它包含在其对角线上共同度。[R^p x p=PCP=PP

-独特性的对角矩阵(的唯一性+共同性=对角线元素 - [R )。我在这里使用“ 2”作为下标,而不是上标( U 2),以方便阅读公式。ü2p x p[Rü2

-再现相关性/协方差的全矩阵= - [R + Ü 2[Rp x p=[R^+ü2

-一些矩阵 M的伪逆; 如果中号是满秩,中号+ = 中号'中号- 1中号中号+中号中号中号+=中号中号-1个中号

对于某些平方对称矩阵 M,将其升高到 p o w e r等于对特征分解 H K H ' = M,将特征值升高到幂并合成: M p o w e r = H K p ø 瓦特é ř ħ '中号pØwË[R中号pØwË[RHķH=中号中号pØwË[R=HķpØwË[RH

粗略计算因子/成分分数的方法

这种流行的/传统的方法(有时也称为Cattell方法)只是对按相同因子加载的物料的值进行平均(或求和)。在数学上,它相当于设置权值中的分数计算˚F = X 。该方法有三个主要版本:1)按原样使用加载;2)将它们二等分(1 =已加载,0 =未加载);3)按原样使用载荷,但零负荷小于某个阈值。=PF^=X

当项目在相同比例单位上时,通常使用这种方法,值只是原始值;尽管不破坏因数分解的逻辑,最好在X进入因式分解时使用X-标准化(=相关分析)或居中(=协方差分析)。XX

在我看来,粗略计算因子/组件得分的方法的主要缺点是,它无法解决加载项目之间的相关性。如果装载一个因素的物品紧密相关,而一个装载得比另一个牢固,则可以合理地将后者视为较年轻的物品,并且可以减轻其重量。精致的方法可以做到,但粗糙的方法不能。

粗分数当然很容易计算,因为不需要矩阵求逆。粗略方法的优点(解释为什么尽管有计算机可用性仍能广泛使用它)是,当采样不理想时(从代表性和大小的角度),或者对于分析选择不佳。引用一篇论文,“当用于收集原始数据的量表未经测试和探索,几乎没有或没有可靠或有效的证据时,总和评分法可能是最理想的”。此外,它不需要了解“因素”必然单变量潜在根本上,如因子分析模型需要它()。例如,您可以将一个因素概念化为现象的集合-然后对项目值求和是合理的。

精致的因子/成分分数计算方法

这些方法是因素分析包的作用。他们通过各种方法估算载荷AP是线性组合的系数,用于按因子/成分预测变量,而B是用于计算变量中的因子/成分分数的系数。一种P

通过计算的得分是按比例缩放的:它们具有等于或接近1(标准化或接近标准化)的方差-而不是真实的因子方差(等于平方结构载荷的总和,请参见此处的脚注3 )。因此,当您需要提供具有真实因子方差的因子得分时,请将得分(将其标准化为st.dev。1)乘以该变量的平方根即可。

您可以从完成的分析中保留,以便能够为X的新观察值计算分数。同样,当量表是根据因子分析开发或通过因素分析验证时,B可用于对构成问卷量表的项目进行加权。B的(平方)系数可以解释为项目对因素的贡献。Coefficints可以标准化像回归系数被标准化β = b σ ë X(其中,σ˚F一个çø- [R=1)来比较不同的方差项的贡献。β=bσ一世ŤËσF一种CŤØ[RσF一种CŤØ[R=1个

查看一个示例,该示例显示了在PCA和FA中完成的计算,包括从得分系数矩阵中得出的得分的计算。

负荷的几何解释的(如垂直坐标)和得分系数b的(倾斜坐标)在PCA设置呈现前两个图片在这里一种b

现在来提炼方法。

方法

PCA 中计算

当被提取而不是组分负载量旋转,,其中大号是由对角矩阵的特征值; 该公式等于将A的每一列除以各自的特征值-分量的方差。=一种大号-1个大号m一种

等效地,。该公式也适用于正交旋转(例如varimax)或倾斜旋转的组件(载荷)。=P+

如果在PCA中应用因子分析中使用的某些方法(请参见下文),则会返回相同的结果。

计算得出的组件分数具有方差1,它们是组件的真实标准化值

统计数据分析中所谓的主成分系数矩阵,如果它是从完整而不是以旋转方式加载的矩阵计算得出的,则机器学习文献中通常将其标记为(基于PCA的)白化矩阵,而标准化的主成分为被识别为“变白”的数据。p x p

公因子分析中计算

不同于成分得分,因子得分从来没有准确 ; 它们只是因子未知的真实值的近似值。这是因为我们不知道案例级别的社区或唯一性值,因为与组件不同,因素是独立于清单变量的外部变量,并且对我们来说是未知的。这就是该因素得分不确定的原因。请注意,不确定性问题在逻辑上独立于因子解的质量:一个因子为真(对应于生成人口数据的潜在因素)是另一个问题,而不是受访者对该因子的得分为真(准确估计)提取的因子)。F

由于因子得分是近似值,因此存在替代方法来计算它们并进行竞争。

估算因子得分的回归或Thurstone或Thompson方法由下式给出:,其中S = P C是结构荷载的矩阵(对于正交因子解,我们知道A = P = S)。回归方法的基础在脚注1中=[R-1个PC=[R-1个小号小号=PC一种=P=小号1个

注意。此公式也可与PCA一起使用:在PCA中,它将获得与上一节中引用的公式相同的结果。

在FA(而非PCA)中,回归计算的因子得分似乎不太“标准化”-方差不是1,而是等于通过变量对这些分数进行回归。该值可以解释为变量确定一个因子(其真实未知值)的程度-变量对实际因子的预测的R平方,回归方法将其最大化,-计算值的“有效性”分数。图2显示了几何形状。(请注意,SS r e g r小号小号[RËG[Rñ-1个2将等于任何改进方法的得分方差,但仅对于回归方法,其数量将等于确定真实f的比例。f的值。分数)。小号小号[RËG[Rñ-1个

作为回归方法的一种变体,可以在公式中使用代替R。有理由认为,在良好的因子分析中,RR 非常相似。但是,当不是这样时,尤其是当因素的数量小于真实人口的数量时,该方法会在得分上产生强烈的偏差。而且,您不应在PCA中使用这种“重现R回归”方法。[R[R[R[Rm

PCA的方法,也称为Horst(Mulaik)或理想化(变型)变量方法(Harman)。这是回归法与ř代替ř其配方英寸 可以很容易地证明,该公式可以简化为B = P + '(所以,实际上我们不需要知道C)。计算因子得分就好像它们是成分得分一样。[R^[R=P+C

[标签“理想化变量”来自以下事实:根据因子或成分,因为模型的变量的预测部分是X = ˚F P ',它遵循˚F = P + ' X,但我们代替X为未知(理想的X,来估计˚F作为评分˚F ; 因此,我们“理想化”了X。 ]X^=FPF=P+X^XX^FF^X

请注意,此方法不会将PCA组件评分作为因子得分,因为使用的载荷不是PCA的载荷,而是因子分析。只是分数的计算方法与PCA中的方法相同。

巴特利特的方法。这里,。这种方法试图使每个响应者的独特(“错误”)因素之间的差异最小化。结果公共因子得分的方差将不相等,并且可能超过1。=Pü2-1个P-1个Pü2-1个p

Anderson-Rubin方法是对先前方法的改进。。分数方差将恰好为1。但是,此方法仅适用于正交因子解(对于倾斜解,它将产生仍然正交的分数)。=Pü2-1个[Rü2-1个P-1个/2Pü2-1个

麦当劳-安德森-鲁宾法。麦当劳还将Anderson-Rubin扩展到倾斜因子解决方案。因此,这一点更为笼统。使用正交因子,它实际上可以简化为Anderson-Rubin。有些软件包在将其称为“ Anderson-Rubin”时可能会使用麦当劳的方法。的公式为:,其中G ^ħ在获得SVD [R 1 / 2 Ü - 1 2 P c ^ 1 / 2=[R-1个/2GHC1个/2GH。(当然,只使用 G中的第一列。)svd[R1个/2ü2-1个PC1个/2=GΔHmG

格林的方法。使用相同的公式作为麦当劳-安德森-鲁宾,但ħ被计算为:SVD [R - 1 / 2 P c ^ 3 / 2= g ^ Δ ħ '。(当然,只使用G中的第一列。)Green的方法不使用商品(或唯一性)信息。随着变量的实际社区变得越来越平等,它趋近并收敛于麦当劳-安德森-鲁宾法。如果应用于PCA的加载,Green会返回组件分数,就像本机PCA的方法一样。GHsvd[R-1个/2PC3/2=GΔHmG

Krijnen等人的方法。此方法是一种概括,可以通过一个公式同时容纳前两个。它可能没有添加任何新的或重要的新功能,因此我没有考虑。

精炼方法的比较

  • 回归方法最大程度地提高了因子得分和该因子的未知真实值之间的相关性(即,使统计有效性最大化),但是这些得分有些偏颇,并且它们在因子之间存在某些不正确的关联(例如,即使解决方案中的因子正交,它们也具有相关性)。这些是最小二乘估计。

  • PCA的方法也是最小二乘,但统计有效性较低。它们的计算速度更快;由于计算机的原因,它们在如今的因子分析中并不常用。(在PCA中,此方法是本机且最佳的。)

  • Bartlett的分数是真实因子值的无偏估计。计算分数以使其与其他因素的真实,未知值准确关联(例如,在正交解中不与它们关联)。但是,它们仍可能与 为其他因素计算的因素得分不准确相关。这些是最大似然(在假设的多元正态下)估计。X

  • Anderson-Rubin / McDonald-Anderson-Rubin格林的分数称为相关性保留,因为它们被计算为与其他因素的因素分数精确相关。因子得分之间的相关性等于解中因子之间的相关性(例如,在正交解中,得分将完全不相关)。但是分数有些偏颇,其有效性可能不高。

还要检查此表:

在此处输入图片说明

[给SPSS用户的注释:如果您使用的是PCA(“主要成分”提取方法),但请求因子得分不是“回归”方法,则程序将不考虑该请求,而是计算您的“回归”得分(精确组件分数)。]

参考文献

  1. 格莱斯(Greice),詹姆斯·W(James W.),《计算和评估因子得分》 //《心理方法》,2001年,第一卷。6,第4号,第430-450页。

  2. DiStefano,Christine等。理解和使用因子得分//实践评估,研究与评估,第14卷第20期

  3. 十个Berge,Jos MFet等。有关保持相关因子分数预测方法的一些新结果//线性代数及其应用289(1999)311-318。

  4. Mulaik,Stanley A.因子分析基础,第二版,2009年

  5. Harman,Harry H.《现代因素分析》,第三版,1976年

  6. 亨氏Neudecker。关于因子分数的最佳仿射无偏协方差保留预测// SORT 28(1)2004年1月至6月,27-36


1个F=b1个X1个+b2X2s1个s2F

s1个=b1个[R11+b2[R12

s2=b1个[R12+b2[R22

[RXs=[RbFb[Rs


2

在此处输入图片说明


3
好的答案,赞成!只是想告诉您,一般的统计知识,尤其是因子分析给您留下了深刻的印象。很高兴在LinkedIn和其他社交网络上与您联系。顺便说一句,仅供参考:您个人资料中指向您公司网站的链接已断开。
Aleksandr Blekh '12

XF一种F[R-1个一种

一世+一种ü-2一种-1个一种ü-2一世

@amoeba,关于您的第一条评论,我在回答中添加了一些信息。关于您的第二点评论-对不起,我认为如果不深入研究书籍,我将无法回答。如果您自己找到答案,请为听众阐明。:-)
ttnphns 2014年

1
很棒的更新@ttnphns,干得好。我注意到该线程已被浏览了13k次,在某些流行的Google搜索中它必须排名很高。
变形虫说恢复莫妮卡

-2

要进行气象方面的PCA,可以使用任一Pearson相关系数来获得相关系数(如果变量使用不同的单位,则可以标准化数据,以便可以直接比较它们,而不会由于数据之间的大小/大小差异而出现任何差异,这样,相关系数就可以比较每个数据集和每个数据集之间均值周围的方差程度,否则,如果使用同一单位测量所有数据,则可以使用协方差方法,而SPSS则很容易。


1
这是完全无法理解的-答案与问题有什么联系(即,成分/因子得分的计算)?
ttnphns

ÿñ×p=Ëp×pŤžp×ñ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.