根据PCA / FA中保留的几个主要成分或因素创建一个索引


15

我正在使用主成分分析(PCA)创建研究所需的索引。我的问题是我应该如何使用通过PCA计算出的保留主成分来创建单个索引。

例如,在使用PCA之后,我决定保留3个主要成分,并计算了这3个主要成分的得分。为每位受访者从这三个分数中创建一个索引的合适方法是什么?

  • 将3个计算所得的分数相加得到一个复合值是否有意义?
  • 还是将这3个分数取平均值才能获得这样的价值?
  • 还是只保留第一个主成分(最强)并将其分数用作索引?

或者,可以使用因子分析(FA),但仍然存在相同的问题:如何基于多个因子得分创建单个索引?


4
根据定义,PC是不相关的。因此,作为变量,它们不会以任何方式复制彼此的信息。这意味着没有理由从中创建单个值(复合变量)。或者,有时将它们相乘可能会引起人们的兴趣,但不会求和或求平均值。
ttnphns 2015年

3
我同意@ttnphns的观点:您的前两个选项没有多大意义,将三台PC“组合”到一个索引中的整个工作似乎是错误的。以1st PC作为索引或完全使用其他方法。
变形虫说莫妮卡(

2
@ttnphns不相关,不是独立的。可能会在PC上重复冗余信息,但不是线性的。
猜想

1
@amoeba谢谢您的提醒。我在stats.stackexchange.com/tags/valuation/info上为标签及其摘要起草了版本。
Whuber

1
@ttnphns您是否会根据上述评论在此处发布答案?我在这里开始了一个赏金计划,因为这个问题的变体不断出现,并且由于任何地方都没有令人满意的答案,我们无法将它们作为重复项关闭。
变形虫说莫妮卡(Monica)恢复职权

Answers:


11

该答案故意是非数学的,并且针对非统计学家心理学家(例如),他询问他是否可以对不同因素的因素评分求和/求平均值,以获得每个受访者的“综合指数”评分。

某些变量的分数求和或取平均值,即假定这些变量属于同一维,并且是可替代的度量。(在问题中,“变量”是组件因子得分,它们不会改变事物,因为它们是变量的示例。)

在此处输入图片说明

确实(图1),受访者1和2可能被视为非典型(即偏离0,即数据中心所在地或量表来源),均具有相同的平均得分1.2 + .4 / 2 = .8。就非典型程度而言,值.8对结构X + Y的适用性与对XY的适用性一样好(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXY分别。代表相同一维的相关变量可以看作是对相同特征的重复测量,而其得分的不同或不相等则是随机误差。因此,建议对分数求和/求平均值,因为预期随机误差会在spe中相互抵消。

如果Y的相关性不足以显示相同的“维度”,则不是这样。然后,将响应者的偏差/非典型性传达为距原点的欧几里得距离(图2)。XY

在此处输入图片说明

受访者1和2的距离不同:.82+.821.13, - respondend 2是越远。如果变量是独立维度,则欧几里德距离仍与被调查者的位置相关(零基准),但均值与否无关。举一个最大的例子,X=.8Y=.8。从平均得分的“观点”来看,该受访者是绝对典型的,例如X=0Y=0。对你来说是真的吗?1.22+.421.26X=.8Y=.8X=0Y=0

此处的另一个答案是加权和或平均值,即和一些合理的权重,例如-如果XwXXi+wYYiXYwXwY对于所有被访者,i都设置为常数,这就是造成缺陷的原因。要关联受访者的双变量偏差(以圆形或椭圆形表示),必须引入取决于其得分的权重;前面考虑的欧几里德距离实际上这种加权和与依赖于值的权重的例子。并且,如果对变量的不均等方差(例如,主成分,如在问题中)的合并很重要,则可以计算加权的欧几里得距离,该距离将在圆变长后在图2中找到。

|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=.81.60

(您可能会大喊“自从我选择了曼哈顿距离以来,我将使所有数据得分均为正数,并凭良心计算出总和(或平均值)”,但请考虑-您是否正确地自由移动原点?主要成分或因素,例如,是在数据以平均值为中心的条件下提取的,这很有意义。其他来源可能会产生其他分数的其他成分/因子。不,大多数时候您可能不会使用来源-轨迹代表“典型受访者”或“零水平特质”的人)

总结一下,如果复合结构的目的是反映受访者相对于某个“零”或典型位点的位置,但这些变量几乎不相关,即距该原点的某种空间距离,而不是均值(或总和)或未加权,应选择。

好吧,如果您决定将(不相关的)变量视为测量同一事物的替代模式,则平均值(和)将有意义。这样,您会故意忽略变量的不同性质。换句话说,您有意识地将图2替换为图1:您“忘记”了变量是独立的。然后-求和或求平均值。例如,可以对“物质福利”和“情感福利”的得分进行平均,同样可以对“空间智商”和“语言智商”的得分进行平均。这种纯粹务实的类型,未经批准的令人满意的复合材料称为电池指数(衡量不相关事物或相关性事物(它们之间的相关性被我们忽略)的测试或问卷的集合称为“电池”)。只有当分数具有相同的方向时(例如,财富和情绪健康都被视为“更好”的极点),电池电量指标才有意义。在狭窄的临时设置之外,它们的用途受到限制。

如果变量之间存在关系-它们之间的相关性仍然很高,但仍不足以将它们视为重复项,替代项,我们经常以加权方式对它们的值求和(或取平均值)。然后应仔细设计这些权重,并应以此方式反映相关性。例如,我们通过PCA或因子分析(FA)来执行此操作,其中我们专门计算组件/因子得分。如果您的变量本身已经是成分或因子得分(如此处的OP问题所述)并且已关联(由于倾斜旋转),则可以对它们(或直接将载荷矩阵)置于二阶PCA / FA中进行查找权重并获得将为您提供“综合指数”的二阶PC /因子。

但是,如果您的成分/因子得分不相关或相关性很弱,则没有统计原因既不能直截了当地对它们进行求和,也不可以通过推断权重。请使用一些距离。距离的问题在于它总是正的:您可以说受访者有多不典型,但不能说他是“高于”还是“低于”。但是,这是从多特征空间中请求单个索引所必须付出的代价。如果您既想要偏差又要在这样的空间登录,我会说您太紧急了。

在最后一点,OP询问是否仅将关于其方差的一个最强变量的分数(在这种情况下为第一主成分)作为“索引”的唯一代理是正确的。这是有道理的,如果说电脑是很多比其他电脑更强。尽管有人可能会问“它是否更坚固,但为什么不只提取/保留它呢?”。


0

从时间序列链接使用PCA创建综合索引网址http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf

在第19页的那篇文章中,作者提到了一种创建非标准化索引(NSI)的方法,该方法使用每个因子解释的差异与所选因子解释的总差异的比例。然后将此NSI标准化。


6
第19页上的该节确实将苹果和橙子添加到变形虫中,这在上面的评论中遭到了变形虫和我的警告,这确实存在问题。一个索引中不相关变量的总和几乎没有任何统计意义。
ttnphns

1
有时,我们确实添加了不相关的结构/量表/测试,并测量了不同的事物。那就是电池指数(被认为完全不同/不相关的测试称为“电池”)。如上一则评论所述,电池指数虽然几乎没有统计意义,但可能具有某种局部的实用意义。
ttnphns


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.