因子分析中的前因子最大化了什么?


12

在主成分分析中,前主成分是具有最大方差的正交方向。换句话说,选择第一主成分为最大方差的方向,选择第二主成分为与最大方差正交的方向,依此类推。ķkk

因子分析有类似的解释吗?例如,我认为前因子是最能解释原始相关矩阵的非对角分量的因子(例如,原始相关矩阵与由相关系数定义的相关矩阵之间的平方误差)因素)。这是真的吗(或者我们可以说类似的话)?k


尽管我几乎同意@NRH在其答案(+1)中写的所有内容,但对您最后一个问题的简短回答是,是的,这确实是正确的。注意,与PCA中一样,FA中的因子也可以选择为正交。区别仅在于复制整个相关矩阵(PCA)与仅复制其非对角线部分(FA)。对于较长的讨论,请参阅我的答案条件PCA和因子分析的相似性是否有很好的理由使用PCA,而不是全民教育?
变形虫说恢复莫妮卡2014年

我不确定FA是否真的“最小化(平方和)平方的部分协方差”,因为存在一个称为“ MinRes”的旋转/提取准则,其原理正是这样。那为什么给它起一个独特的名字呢?如果k个因子的数量完美地再现了协方差,则可能在数学上找到FA解的标准例程会获得相同的结果-但由于k是一个估计,因此可能是在瑕疵/低估的情况下,FA解不是与MinRes解决方案相同。好吧,我说:可能是 -我想看到一个明确声明。
Gottfried Helms 2014年

Answers:


7

PCA主要是一种数据缩减技术,其目的是获得数据在较低维空间上的投影。两个等效的目标是迭代最大化方差或最小化重构误差。实际上,在上一个问题的答案中对此进行了详细说明。

相反,因子分析主要是维数据向量的生成模型,称 其中是潜因子的维向量,是且和是不相关错误的向量。的矩阵是的矩阵因子载荷。这产生了协方差矩阵的特殊参数化,如 。此模型的问题在于参数化过度。如果替换为则会获得相同的模型X X = A S + ϵpX

X=AS+ϵ
Sp × ķ ķ < p ε Σ = Ť + d ř ķ × ķ ř ΣqAp×kk<pϵA
Σ=AAT+D
AAR对于任何正交矩阵,这意味着因子本身不是唯一的。存在解决该问题的各种建议,但是没有一个单一的解决方案可以为您提供所需的解释类型。一种流行的选择是varimax旋转。但是,使用的标准仅确定旋转。跨越的列空间不会改变,并且由于这是参数化的一部分,因此可以通过用于估算的任何方法来确定-例如,通过高斯模型中的最大似然来确定。k×kRAΣ

因此,为了回答这个问题,使用因子分析模型不会自动给出所选因子,因此对第一个因子没有单一的解释。您必须指定用于估计的列空间的方法和用于选择旋转的方法。如果(所有误差均具有相同的方差),则的列空间的MLE解为前导主成分向量所跨越的空间,这可以通过奇异值分解找到。当然,可以选择不旋转并报告这些主成分矢量作为因素。 d = σ 2qkAD=σ2IAq

编辑:为了强调我的看法,因子分析模型是协方差矩阵的模型,作为秩矩阵和对角矩阵。因此,该模型的目的是最好地解释方差矩阵上具有这种结构的协方差。解释是协方差矩阵上的这种结构与未观察到的维因子兼容。不幸的是,这些因素不能唯一地恢复,并且如何在一组可能的因素中选择它们与数据的解释没有任何关系。与PCA一样,可以预先标准化数据,从而拟合一个模型,该模型试图将相关矩阵解释为秩加对角矩阵。 ķ ķkkk


1
是的,我知道没有k个因子的唯一选择(因为我们可以旋转它们并获得相同的模型)。但是,通过因子分析选择的k个因子是否有某种“相关性的最大解释”?
raegtin

1
@raegtin,我已经编辑了答案以解释我的观点,这是协方差矩阵的模型。如我所见,通过旋转获得的任何因素的选择,在解释数据的协方差时都同样好坏,因为它们会产生相同的协方差矩阵。
NRH

1
感谢您的更新,这是FA的绝佳解释!因此,当您说“模型的目标是最好地解释协方差”时,您是说k个因素确实确实使解释的协方差量最大化吗?
raegtin

1
@raegtin,是的,我将模型视为协方差矩阵的模型,当您估算模型时,可以说您正在使解释的协方差最大化。
NRH

@raegtin和NRH(+1 btw):澄清一下。如果通过“协方差”我们理解“协方差矩阵的非对角部分”,则以上两个评论是正确的。
变形虫说恢复莫妮卡2014年

3

@RAEGTIN,我相信您的想法正确。在提取和先前旋转之后,每个连续因子的确会越来越少地发生协变/相关,就像每个连续分量所占的方差越来越小一样:在两种情况下,加载矩阵A的列都以其中的平方元素(载荷)的总和。负荷是相关的bw因子和变量;因此,可以说第一个因素解释了R矩阵中“总体”平方r的最大部分,第二个因素在这里是第二个,依此类推。尽管如此,FA和PCA之间的差异在通过载荷预测相关性时如下:FA被“校准”以还原R仅用m个提取的因子(m个因子<p个变量)就可以很好地完成PCA,而通过m个分量来恢复它是不礼貌的,它需要所有p个分量来无误差地恢复R。

PS只是要添加。在FA中,负载值“包含”干净的社区(负责相关的方差的一部分),而在PCA中,负载是变量的社区和唯一性的混合,因此具有可变性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.