解释PCA分数


16

有人可以帮助我解释PCA分数吗?我的数据来自关于熊的态度的问卷。根据负载,我将主要成分之一解释为“恐惧熊”。该主要成分的分数是否与每个受访者对该主要成分的衡量方式(他/她在该分数上是正面/负面得分)相关?


您问题的简短答案是
变形虫说莫妮卡(

Answers:


13

基本上,将因子得分计算为由因子负载加权的原始响应。因此,您需要查看第一个维度的因子负载,以了解每个变量与主成分的关系。观察到与特定变量相关的高正(负)负载意味着这些变量对该组件有正(负)贡献。因此,在这些变量上得分高的人在该特定维度上倾向于获得较高(而较低)的因子得分。

绘制相关圆有助于大致了解对第一个主轴“正”与“负”(如果有)的变量,但是如果您使用R,则可以看看FactoMineR包和该dimdesc()功能。

这是USArrests数据示例:

> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1)  # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
         correlation  p.value
Assault        0.918 5.76e-21
Rape           0.856 2.40e-15
Murder         0.844 1.39e-14
UrbanPop       0.438 1.46e-03
> res$var$coord  # show loadings associated to each axis
         Dim.1  Dim.2  Dim.3   Dim.4
Murder   0.844 -0.416  0.204  0.2704
Assault  0.918 -0.187  0.160 -0.3096
UrbanPop 0.438  0.868  0.226  0.0558
Rape     0.856  0.166 -0.488  0.0371

从最新结果可以看出,第一维度主要反映了暴力行为(任何形式)。如果我们查看单个地图,则很明显,位于右侧的州是此类行为最频繁的州。

替代文字 替代文字

您可能对以下相关问题也感兴趣:什么是主成分分数?


5

对我来说,PCA分数只是对数据的重新排列,其形式使我可以用更少的变量来解释数据集。分数代表每个项目与组件的相关程度。您可以按因子分析来命名它们,但是要记住它们不是潜在变量,因为PCA会分析数据集中的所有差异,而不仅是共有的元素(因子分析也是如此),这一点很重要。


是的,您说的很对,与FA相比,PCA中未包含任何错误模型。我已为此特定点+1。请注意,我说的是“要考虑的有意义”,而不是从PCA中提取的主要成分是真正的LV。除非您对评估秤的可靠性或测量模型感兴趣,但是无论使用PCA还是FA都没什么区别。现在,数据分析通常与解释变量之间的相关性或查找主题组有关,因此也需要解释因子空间的一个或多个维度。(...)
chl

(...)FactoMineR包含有关葡萄酒的数据集,可以使用许多因子方法(PCA,MFA),甚至可以像Michel Tenenhaus所做的那样使用PLS或CCA。
chl 2010年

@chl,感谢有关包装的提示,我将检查一下。关于PCA与FA,我同意这一点。对于大多数应用程序,我更喜欢使用FA,因为我资助了社区(共同方差)估计值,对评估特定因素结构的价值非常有用。但是,这可能只是个人喜好。
richiemorrisroe 2010年

您是完全正确的(我已经赞成您先前的回答,因为它很清楚)。只是(未旋转的)PCA与CA,MFA,MCA一起在数据分析(尤其是法国学校)方面拥有自己的历史。另一方面,保罗·克莱恩(Paul Kline)着有两本非常不错的书,介绍了FA在人格研究中的使用。即将出版的William Revelle的书应该会吸引R用户:)好吧,无论如何,我认为我们同意这些都是分析相关矩阵结构的有用工具。
chl 2010年

0

PCA结果(不同维度或组成部分)通常不能转换为真实的概念,我认为假设其中一个成分是“恐惧熊”是错误的,导致您认为该成分是什么意思?主成分过程将您的数据矩阵转换为具有相同或更少维数的新数据矩阵,并且所得维数的范围从可以更好地解释方差的维度到到可以解释得较少的维度。基于原始变量与计算出的特征向量的组合来计算该分量。总体PCA程序确实会将原始变量转换为正交变量(线性独立)。希望这可以帮助您澄清有关pca程序的信息


您是否同意某些变量的线性组合仍可以解释为反映每个变量对因子轴的某种加权贡献?
chl 2010年

是的,就是这样。
mariana soffer

那么,为什么要阻止命名呢?变量仅被视为清单变量,在某些情况下,将它们的加权组合反映为潜在(不可观察)因素是有意义的。
chl
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.