Answers:
传统的(线性)PCA和因子分析需要比例级别(间隔或比率)数据。通常,李克特式评级数据被假定为规模级别的,因为此类数据更易于分析。而且有时需要从统计角度考虑做出决定,尤其是当有序类别的数量大于5或6时。(尽管从逻辑上来说,数据类型和规模级别的数量是不同的。)
但是,如果您更喜欢将多形李克特量表视为序数怎么办?还是您有二分法的数据?是否可以为他们进行探索性因素分析或PCA?
目前,关于分类序或二元变量(也读来执行FA三种主要的方法(包括PCA作为特例)这个帐户有关的二进制数据的情况下,与该考虑什么可能与顺序量表来完成)。
最佳缩放方法(一系列应用程序)。也称为分类PCA(CatPCA)或非线性FA。在CatPCA中,目的是将序数变量单调变换(“量化”)为其“基础”区间版本,以最大程度地利用从这些区间数据中提取的选定主成分数来解释方差。这使得该方法公开地受目标驱动(而不是理论驱动),并且对于预先确定主要组件的数量很重要。如果需要真正的FA而不是PCA,则自然可以对从CatPCA输出的那些转换变量执行常规的线性FA。对于二进制变量,CatPCA(很遗憾?)的行为与通常的PCA相同,即好像它们是连续变量一样。CatPCA还接受名义变量和变量类型(精细)的任何混合。
推断基础变量方法。也称为PCA / FA,对四项(针对二进制数据)或多项(针对序数数据)相关性执行。假定每个清单变量的基础(然后合并)连续变量都为正态分布。然后将经典FA应用于上述相关性分析。该方法很容易将间隔,有序,二进制数据混合在一起。该方法的一个缺点是-在推断相关性时-它不了解基础变量的多元分布,-最多只能“构想”双变量分布,因此其自身并非基于完整的信息。
项目响应理论(IRT)方法。有时也称为逻辑FA或潜在性状分析。应用非常接近二进制对数(对于二进制数据)或比例对数赔率(对于序数数据)模型的模型。该算法与相关矩阵的分解无关,因此它与传统的FA略有不同,但它仍然是真正的分类FA。“区分参数”紧密对应于FA的负载,但是“困难”代替了FA的“唯一性”概念。随着因素数量的增加,IRT拟合确定性迅速降低,这是此方法的问题所在。IRT可以以自己的方式扩展,以合并混合区间+二进制+有序变量和可能的标称变量。
与经典FA或方法(1)中的因子得分相比,方法(2)和(3)中的因子得分更难估计。但是,确实存在几种方法(预期或最大后验方法,最大似然方法等)。
三种方法中的因素分析模型假设主要与传统FA中的假设相同。在我看来,方法(1)在R,SPSS,SAS中可用。方法(2)和(3)主要在专门的潜在变量包中实现-Mplus,LISREL,EQS。
多项式方法。尚未完全开发出来。可以将主成分建模为变量的多项式组合(使用多项式是对有序回归变量的非线性效应进行建模的一种常用方法)。同样,观察到的类别又可以建模为潜在因子多项式组合的离散表现。
存在一个非线性的降维技术的繁荣领域。其中一些可以应用于或采用以处理分类数据(尤其是二进制数据或二进制化为高维稀疏数据集后)。
对秩相关或适用于分类数据的其他关联(Spearman / Kendall / Somer等)执行经典(线性)FA / PCA。对于有序数据,这纯粹是启发式方法,缺乏理论依据,根本不建议使用。对于二进制数据,Spearman rho和Kendall tau-b相关性以及Phi关联都等于Pearson r相关性,因此,使用它们只是对二进制数据执行常规的线性FA / PCA(这里有些危险)。也有可能(尽管不是毫无疑问)对重新缩放后的的当前幅度范围进行分析。