是否有针对序数或二进制数据的因子分析或PCA?


28

我已经完成了主成分分析(PCA),探索性因素分析(EFA)和确认性因素分析(CFA),并用李克特量表(5级答复:无,有,有..)将数据视为连续数据。变量。然后,使用Lavaan,我重复了CFA,将变量定义为分类变量。

我想知道当数据本质上是序数时,什么类型的分析适用于PCA和EFA?而当二进制

我也将对可以轻松实现此类分析的特定软件包或软件提出建议。

Answers:


38

传统的(线性)PCA和因子分析需要比例级别(间隔或比率)数据。通常,李克特式评级数据被假定为规模级别的,因为此类数据更易于分析。而且有时需要从统计角度考虑做出决定,尤其是当有序类别的数量大于5或6时。(尽管从逻辑上来说,数据类型和规模级别的数量是不同的。)

但是,如果您更喜欢将多形李克特量表视为序数怎么办?还是您有二分法的数据?是否可以为他们进行探索性因素分析或PCA?

目前,关于分类序或二元变量(也读来执行FA三种主要的方法(包括PCA作为特例)这个帐户有关的二进制数据的情况下,与考虑什么可能与顺序量表来完成)。

  1. 最佳缩放方法(一系列应用程序)。也称为分类PCA(CatPCA)或非线性FA。在CatPCA中,目的是将序数变量单调变换(“量化”)为其“基础”区间版本,以最大程度地利用从这些区间数据中提取的选定主成分数来解释方差。这使得该方法公开地受目标驱动(而不是理论驱动),并且对于预先确定主要组件的数量很重要。如果需要真正的FA而不是PCA,则自然可以对从CatPCA输出的那些转换变量执行常规的线性FA。对于二进制变量,CatPCA(很遗憾?)的行为与通常的PCA相同,即好像它们是连续变量一样。CatPCA还接受名义变量和变量类型(精细)的任何混合。

  2. 推断基础变量方法。也称为PCA / FA,对四项(针对二进制数据)或多项(针对序数数据)相关性执行。假定每个清单变量的基础(然后合并)连续变量都为正态分布。然后将经典FA应用于上述相关性分析。该方法很容易将间隔,有序,二进制数据混合在一起。该方法的一个缺点是-在推断相关性时-它不了解基础变量的多元分布,-最多只能“构想”双变量分布,因此其自身并非基于完整的信息。

  3. 项目响应理论(IRT)方法。有时也称为逻辑FA潜在性状分析。应用非常接近二进制对数(对于二进制数据)或比例对数赔率(对于序数数据)模型的模型。该算法与相关矩阵的分解无关,因此它与传统的FA略有不同,但它仍然是真正的分类FA。“区分参数”紧密对应于FA的负载,但是“困难”代替了FA的“唯一性”概念。随着因素数量的增加,IRT拟合确定性迅速降低,这是此方法的问题所在。IRT可以以自己的方式扩展,以合并混合区间+二进制+有序变量和可能的标称变量。

与经典FA或方法(1)中的因子得分相比,方法(2)和(3)中的因子得分更难估计。但是,确实存在几种方法(预期或最大后验方法,最大似然方法等)。

三种方法中的因素分析模型假设主要与传统FA中的假设相同。在我看来,方法(1)在R,SPSS,SAS中可用。方法(2)和(3)主要在专门的潜在变量包中实现-Mplus,LISREL,EQS。

  1. 多项式方法。尚未完全开发出来。可以将主成分建模为变量的多项式组合(使用多项式是对有序回归变量的非线性效应进行建模的一种常用方法)。同样,观察到的类别又可以建模为潜在因子多项式组合的离散表现。

  2. 存在一个非线性的降技术的繁荣领域。其中一些可以应用于或采用以处理分类数据(尤其是二进制数据或二进制化为高维稀疏数据集后)。

  3. 对秩相关或适用于分类数据的其他关联(Spearman / Kendall / Somer等)执行经典(线性)FA / PCA。对于有序数据,这纯粹是启发式方法,缺乏理论依据根本不建议使用。对于二进制数据,Spearman rho和Kendall tau-b相关性以及Phi关联都等于Pearson r相关性,因此,使用它们只是对二进制数据执行常规的线性FA / PCA(这里有些危险)。也有可能(尽管不是毫无疑问)对重新缩放后的的当前幅度范围进行分析。[R

也期待在这个这个这个这个这个这个这个这个


3
现象答案。唯一要补充的是,我认为您可以使用R中的psych软件包来实现(2)(请参见fa函数的“ cor”选项)和(3)(请参见irt.fa和irt.poly函数)中的方法。 )到不同的程度,并且ltm包也可以用于容纳许多IRT模型。
jsakaluk '16

1
它们可能有所不同。我通过“非线性FA”(CatPCA-then-EFA)进行了几次库存创建/验证,发现结果比常规(线性)EFA更好。我采用的程序与通常的FA相似,唯一的区别是每次分析-我尝试的每组项目以及提取的每个因子的数量-我都做了CatPCA,然后(在量化变量上)-EFA pas deux 。
ttnphns

@jsakaluk,非常感谢您提供的信息。(我不是R用户,所以只能很少了解它的惊人容量)。
ttnphns

感谢您的详尽回应。@ttnphns我今天大部分时间都在尝试在SPSS 23中实现CATPCA。我设法找到了两个教程(Linting和Kooij(2012)和unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/…)未能回答我自己的几个问题。您能为解决一些技术问题提供一个好的渠道吗?再次感谢你。
user116948'6

1
@ user116948,如果您在SPSS中无法理解如何使用它:首先,在“帮助”菜单的“ SPSS案例研究”子菜单中找到并阅读CATPCA案例研究。其次,浏览此站点上已经询问的有关CATPCA的所有问题。第三:如果您还有问题,请在网站上作为一个新问题提出。不用担心:如果它“技术性太强”,则可以将其转移到StackOveflow。第四:选择一个SPSS社区来询问您的问题(SPSSXL是最好的)。祝贺你。
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.