因子分析的假设是什么?


11

我想检查我是否真的了解[经典,线性] 因子分析(FA),尤其是在FA之前(以及之后)所做的假设

某些数据应首先进行关联,并且它们之间可能存在线性关系。在进行因子分析之后,数据是正态分布的(每对的双变量分布),并且因子之间(通用变量和特异性变量之间)没有相关性,一个因子的变量与其他因子的变量之间也没有相关性。

这是正确的吗?

Answers:


12

线性FA的输入数据假设(这里我不是在谈论FA 模型的内部假设/属性,也不是在检查结果的拟合质量)。

  1. 比例(区间或比率)输入变量。这意味着这些项目要么是连续的度量,要么在离散数量规模上被概念化为连续。线性FA中无序数据(读取)。还应避免使用二进制数据(请参阅thisthis)。线性FA假定潜在的公共和唯一因素是连续的。因此,它们加载的观察变量也应该是连续的。
  2. 相关是线性的。可以基于任何SSCP类型的关联矩阵执行线性FA :Pearson相关性,协方差,余弦等(尽管某些方法 /实现可能仅限于Pearson相关性)。请注意,这些都是线性代数乘积。尽管协方差系数的大小反映的不仅仅是线性关系,但即使使用协方差,线性FA的建模本质上也是线性的:变量是因子的线性组合因此线性暗示在结果关联中。如果您看到/认为非线性关联占了上风-不要做线性FA或尝试先通过数据转换将它们线性化。也不要基线性FA上斯皮尔曼或肯德尔相关性(PT 4 那里)。
  3. 没有异常值 -这与任何非稳健方法一样。皮尔逊相关性和类似的SSCP类型关联对异常值敏感,因此请当心。
  4. 存在合理的高相关性。FA是对相关性的分析,当所有或几乎所有相关性都很弱时,FA有什么用?-没有用 但是,“合理的高相关性”取决于研究领域。还有一个有趣且多样的问题,是否应该接受很高的相关性(例如,在这里讨论它们对PCA的影响)。为了统计检验数据是否不相关可以使用Bartlett的球形度检验
  5. 偏相关性很弱,可以充分定义因子。FA认为因素比加载相关项目对更为笼统。实际上,甚至有人建议不要提取说明性FA中装载量少于3个项目的因子。在确认性FA中,只有3+是可保证识别的结构。作为提取的一个技术问题,称为海伍德案(Heywood case),其背后的原因之一就是因数太少的情况。Kaiser-Meyer-Olkin(KMO)的“抽样充分性度量”为您估计了数据中的部分相关相对于全部相关的弱性;可以针对每个项目以及整个相关矩阵进行计算。
  6. 没有多重共线性。FA模型假定所有项目均具有唯一因素,并且这些因素是正交的。因此,2个项必须定义一个平面,3个项必须定义一个平面,3d空间等:p相关矢量必须跨越p-dim空间以容纳其p个相互垂直的唯一分量。因此,由于理论原因,因此没有奇异之处(因此自动生成,无需说;更好)。但是,并不是说完全的多重共线性是允许的;但是它可能会在大多数FA算法中引起计算问题(另请参见)。1n observations > p variablesn>>p
  7. 经销。通常,线性FA不需要输入数据的正态性。适度偏斜的分布是可以接受的。双峰不是禁忌症。实际上,对于模型中的唯一因子(它们用作回归误差)假定了正态性,但对于公共因子和输入数据则不具有正态性(另请参见)。尽管如此,通过某些提取方法(即最大似然)和执行某些渐近检验,可能还需要数据的多元正态性作为附加假设。

1FA的 ULS / minres 方法可以用于奇数甚至非psd相关矩阵,但严格来说,从理论上讲,这种分析对我而言是可疑的。


,您能看一下这篇文章吗,似乎没什么不同。
WhiteGirl '17

如果Binary data should also be avoided可以,我们还能做binary data什么?
kittygirl

亲爱的ttnphns;我注意到您没有提到数据被假定为正常数据,而其他在线数据则表明不需要正常数据。我的询问是,如果将潜在变量假定为正态,并且将观测值建模为因素的加权和,那么这是否不意味着观测值呈正态分布?(对不起,我确定这是一个愚蠢的问题)
user2957945

@ user2957945,第7段介绍了正常性。正态性假设对于某些因子提取方法以及在某些伴随因子分析的统计检验中执行是必要的。对您的问题:是的,如果因素分布正常且误差也正常分布,则表示清单变量也正常。
ttnphns

啊,谢谢@ttnphns; 抱歉打扰您-我不太清楚我是怎么想念这个的。感谢您的帮助。
user2957945

9

在很多时候,进行因子分析本身并不需要任何统计检验。它比诸如回归,结构方程建模等方法更具主观性和解释性。通常,推论测试带有假设:为了使p值和置信区间正确,必须满足这些假设。

现在,如果将选择因子数量的方法设置为最大似然方法,则存在一个假设:输入到因子分析中的变量将具有正态分布。

输入变量将具有非零相关性是一种假设,因为如果假设不成立,则因子分析结果将(可能)无用:在任何一组输入变量后面都不会出现作为潜在变量的因子。

至于“因素(共同因素和具体因素之间没有相关性,一个因素的变量与其他因素的变量之间没有相关性”),这些因素并不是因素分析人员做出的普遍假设,尽管有时会出现两种情况(或近似情况)可能是可取的。后者持有时称为“简单结构”。

还有一种情况有时被称为“假设”:输入变量之间的零阶(原始)相关性不会被较大的部分相关性所淹没。简而言之,这意味着对于某些配对而言,关系应该牢固,而对于另一些配对,则应当弱一些。否则,结果将是“泥泞的”。这与简单结构的可取性有关,实际上可以使用Kaiser-Meyer-Olkin统计量或KMO对其进行评估(尽管未经过正式的“测试”)。通常认为KMO值接近.8或.9对于信息因素分析结果很有希望,而KMO接近.5或.6则没有太大希望,而那些低于.5的KMO可能会促使分析师重新考虑其策略。


如我所读,因子分析从与变量的某种相关性开始,我们试图使这种相关性越来越清晰
Sihem 2012年

1
在应用了因子分析之后,如果我们使用正交旋转,我们将确保因子之间没有相关性
Sihem 2012年

2

假设探索性因子分析基础是:
•间隔或测量的比水平
•随机取样
关系•观察到的变量之间是线性
•一个正态分布(每个观测到的变量)
•二元正态分布(每对观察到的变量的)
•多元常态
以上从在SAS文件

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.