存在时提取更多因素总是更好吗?


11

与主成分分析不同,因子分析模型的解决方案不一定是嵌套的。也就是说,当仅提取第一个因子与第一个两个因子相同时,第一个因子的负载(例如)不一定相同。

考虑到这一点,请考虑以下情况:您具有一组高度相关的清单变量,并且(根据其内容的理论知识)应由单个因素来驱动。想象一下,探索性因素分析(无论您喜欢哪种度量标准:并行分析,卵石图,本征值> 1等)都强烈暗示着存在因素:主要因素较大,次要因素较小。您有兴趣使用清单变量和因子解来估计(即,获取因子得分)参与者对第一个因子的值。 在这种情况下,最好是:2

  1. 拟合因子模型以仅提取因子,并获得因子得分(等),或1个
  2. 拟合因子模型以提取两个因子,获得因子的因子得分,但是扔掉/忽略第二个因子的得分?

对于哪种更好的做法,为什么呢? 关于这个问题有研究吗?


在选择要提取的因子数量时,不应只依赖于分析前的启发式设备。相关性的重现(当您提取2个因子而不是1个因子时有多好?)在这个和那个解中相关残差如何分布?(通常应大致均匀或正常,右尾长而无脂肪)。如果数据正常,则可以计算载荷的拟合度和标准误差(使用ML提取)。基于所有这些以及可解释性,可以确定在当前情况下(1)或(2)方式是否更好。
ttnphns 2015年

(续)最终,只有新的样本/确定性FA才能判断出困境。然而,一个概念。如果第二个因子确实很弱(提取后的SS负载较小),那么我不希望这两个解决方案(因此因子1的因子得分)也不会有很大差异。(我之所以没有那么大的信心是因为我在没有大修的情况下发表评论。但是,从逻辑上讲,如果因子平面准备退化为直线,则结果应该几乎与直线一样……)
ttnphns

Q标题Is is always better to extract more factors when they exist?不是很清楚。提取存在的数量总是更好。由于您提到的分析的多变量和非嵌套性质,欠拟合或过拟合都会扭曲“真实”的潜在结构。问题在于我们不确切知道数据中有多少个因素。以及这些数据是否与人口总数一样多。
ttnphns 2015年

1
@ttnphns,我认为您的最后评论已成为问题的核心。假设您要使用哪种方法说服您,实际上确实有2个因素,其中1个因素几乎占了所有共享方差,直到或包括新鲜样本中的CFA。带2的拟合度可以忽略不计,但是更好。为了突出问题,这是一个虚假的人为示例。根本的问题也可以同样使用2出的5
呱-恢复莫妮卡

1
问题是,由于解决方案不是嵌套的,因此哪种方法可以更好地估计每个参与者在潜在变量上的得分,为什么?是仅使用1个偏置电压,还是与真实值相差甚远,还是两者都不同?发生这种情况是因为仅使用1是“欠拟合”吗?这到底是什么意思?是否可以表征失真的性质?另外,我可能期望仅提取1可使分析将其所有自由度集中在尽可能精确的1上。
gung-恢复莫妮卡

Answers:


5

您要提到的问题是构建心理测试仪器时的“近似一维”主题,在80年代的文献中已经对此进行了讨论。灵感之所以存在,是因为从业者想对他们的物品使用传统的物品响应理论(IRT)模型,而当时这些IRT模型仅局限于测量一维特征。因此,希望测试多维性能够避免(希望)避免或令人讨厌。这也是导致在因子分析(Drasgow和Parsons,1983)和DETECT方法中创建并行分析技术的原因。

忽略其他特征/因素的后果,除了显然使错误的模型适合数据(即,忽略有关潜在模型失配的信息;尽管它当然可能是微不足道的)之外,还在于对主导因素的特征估计会产生偏差,并且因此效率较低。这些结论当然取决于附加特征的特性(例如,它们是否与主要维度相关,是否具有强大的负荷,存在多少交叉负荷等),但总的主题是次级估计获得主要特质分数将不太有效。有关未拟合的一维模型和双因子模型之间的比较,请参见此处的技术报告。技术报告似乎正是您所追求的。

从实践的角度来看,在选择最佳模型以及一般模型拟合统计信息(RMSEA,CFI等)时,使用信息标准可能会有所帮助,因为忽略多维信息的后果将对数据的整体拟合产生负面影响。但是,当然,总体模型拟合只是使用不适当的模型处理手头数据的一种迹象。很有可能使用了不正确的功能形式,例如非线性或缺乏单调性,因此也应始终检查各个项目/变量。

另请参阅

Drasgow,F。和Parsons,CK(1983)。一维项目响应理论模型在多维数据中的应用。应用心理测量,7(2),189-199。

Drasgow,F.&RIssak,RI(1983)。改进的并行分析:一种检查二分计分的项目响应的潜在维度的过程。Journal of Applied Psychology,68,363-373。

Levent Kirisci,Tse-chi Hsu和Lifa Yu(2001)。项目参数估计程序对一维性和正态性假设的鲁棒性。应用心理测量,25(2),146-162。


感谢您添加此内容。这似乎正是我所追求的。
gung-恢复莫妮卡

我是否正确理解您对标题问题的回答是“是”?
变形虫说恢复莫妮卡2015年

2
@amoeba通常,我会说是的,或者更多的是,包括附加信息应该比施加严格的一维性更好或更好。忽略已知的多维性可能会带来很大的问题,但是当然有许多因素会导致这种情况。唯一包含关于结构的额外信息的时间可能不好,是因为样本量太小而无法稳定地估计额外参数。因此,需要进行偏差效率的权衡。但是,如果样本量不是一个大问题,那么我想说的是,包含额外信息几乎没有什么可损失的(如果没有的话,将会损失很多)。
philchalmers

1

如果您确实不想使用第二个因素,则应该只使用一个因素模型。但是,您的言论令我感到困惑,如果您使用第二个因素,第一个因素的负荷将发生变化。

让我们先处理该语句。如果您使用主成分提取因子并且不使用因子旋转,那么载荷将不会改变-可能会受到缩放(或完全翻转:如果是因子,则是将其表示为好)。如果使用最大似然提取和/或因子旋转,则载荷可能取决于提取的因子数量。X-X

接下来,解释旋转的影响。我不擅长绘图,所以我会尝试用文字说服您。我将假设您的数据(大约)是正常的,因此因子得分也大约是正常的。如果提取一个因子,则将获得一维正态分布;如果提取两个因子,则将获得双变量正态分布。

二元分布的密度看起来大致像一顶帽子,但是确切的形状取决于缩放比例以及相关系数。因此,让我们假设两个组件各自具有单位方差。在不相关的情况下,您会得到一个漂亮的草帽,其水准曲线看起来像圆形。图片在这里。相关性“压扁”了帽子,使它看起来更像拿破仑的帽子

假设您的原始数据集具有三个维度,而yu想从中提取两个因素。让我们也坚持常态。在这种情况下,密度是一个四维对象,但水平曲线是三维对象,至少可以可视化。在不相关的情况下,水平曲线是球形的(如足球)。在存在相关性的情况下,水平曲线将再次变形为橄榄球,可能是充气不足的橄榄球,因此接缝处的厚度小于其他方向的厚度。

如果使用PCA提取两个因子,则将足球完全展平为椭圆(并且将每个数据点投影到椭圆的平面上)。未旋转的第一因子对应于椭圆的长轴,第二因子垂直于椭圆的长轴(即短轴)。然后旋转选择此椭圆内的坐标系,以满足其他一些方便的条件。

如果仅提取单个因子,则无法旋转,但是可以确保提取的PCA因子对应于椭圆的长轴。


2
我对这个答案感到困惑。该问题明确询问有关因素分析的问题,而不是主成分分析。
变形虫说恢复莫妮卡

有两种提取因子的方法:主成分或最大似然。我没有对此进行任何统计,但是我相信使用主成分方法的频率更高。
user3697176

3
有很多不同的方法,不止两种。主轴,ML,最小值,加权最小二乘法等等-我在这里不是专家。PCA有时(很少!)也被认为是一种因素提取的方法,但这是很草率的-确实不应该。它适合不同的模型。
变形虫说恢复莫妮卡2015年

您的第一句话回答了我的问题。很高兴听到更多有关此事以及它为什么正确的信息。关于提取因子的方法,@ amoeba是正确的:PCA和PAF在其他算法开发欠佳或难以实施时很常见。他们现在被普遍认为是劣等的。fa()例如,R's 多年来没有使用它们。其他方法将产生非嵌套解决方案,使用软件和FA数据集即可轻松验证。为了可比性,您可以考虑将两种解决方案保持不变。FWIW,我很熟悉球形和椭圆形MVN分布的想法。
gung-恢复莫妮卡

1
@gung,一句话。PAF方法还提供了非嵌套的解决方案。这是一种真正的FA方法(尽管基于PCA作为一种方法),但我想它仍然被广泛使用。
ttnphns

1

为什么不使用lavaan或MPlus之类的工具来运行两个模型(一维模型和与EFA结果对齐的二维模型),并比较不同模型的相对拟合指数和绝对拟合指数(例如,信息标准-AIC和BIC, RMSEA,SRMR,CFI / TLI)?请注意,如果您走这条路,您不希望将PCA用于全民教育,而要使用主要因素。真正关心测量的人会将CFA嵌入到完整的结构方程模型中。

编辑:我要让您考虑的方法更多地是关于找出多少个潜在变量实际上解释了项目集。如果您想获得较大因素的最佳估计,我将投票赞成使用CFA模型中具有更好拟合度的因素得分,无论哪种选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.