对二进制数据进行主成分分析或因子分析


29

我有一个包含大量“是/否”响应的数据集。予使用这种类型的数据的主成分(PCA)或任何其他数据缩减分析(如因子分析)?请告知我如何使用SPSS进行此操作。


1
是什么使您认为PCA特别反对判别分析?
克里斯·西莫卡特

Answers:


38

PCA或因子分析中的二分或二元变量问题是永恒的。从“它是非法的”到“它还可以”,通过诸如“您可以做到,但您会得到太多因素”之类的观点存在分歧。我目前的看法如下。首先,我认为二进制观测变量是离散的,以任何方式将其视为连续变量都是不适当的。这个离散变量可以引起因子或主成分吗?

  • 因子分析(FA)。通过定义因子是一个连续的潜该加载观测变量(12)。因此,当按因子加载时,后者不能是连续的(或者更确切地说是间隔)。同样,FA由于其线性回归性质,还假设其余部分(未加载)也称为唯一性,也是连续的,因此,即使稍微加载也可以观察到的变量也应该是连续的。因此,二元变量 无法在FA中进行立法。但是,至少有两种方法可以解决:(A)假定二分法是随着粗糙化继续进行基础变量而进行的,FA与四项式(而不是Pearson)相关。(B)假设因子不是线性而是逻辑地加载二分变量,并进行潜在性状分析(aka项目响应理论)而不是线性FA。阅读更多

  • 主成分分析(PCA)。虽然PCA与FA有很多共同点,但它不是建模而是仅仅是一种汇总方法。组件在概念上与变量加载变量的含义不同。在PCA中,组件加载变量, 变量加载组件。这种对称性是因为PCA本身仅仅是空间中变量轴的旋转。二进制变量本身不会为组件提供真正的连续性-因为它们不是连续的,但是伪连续性可以通过PCA旋转角度来提供,而PCA旋转角度可以出现任何角度。因此,在PCA,并与FA相反,您可以得到看似连续尺寸(旋转轴)与纯二进制变量(未旋转轴) -角是连续性的原因1个

    (0,0)2

:约FA或二进制数据的PCA一些相关的问题123456。那里的答案可能表达与我不同的观点。


1个级别实体-对于变量作为点或类别作为点-它们在主轴空间中的坐标确实是合法的比例值。但不是二进制数据的数据点(数据案例),它们的“分数”是连续值:不是固有度量,只是一些覆盖坐标。


21个

二进制数据示例(仅是两个变量的简单情况):

在此处输入图片说明

下面的散点图显示数据点有些抖动(以提高频率),并且将主成分轴显示为对角线,上面带有成分分数(根据我的说法,这些分数是连续值)。每张图片上的左图显示基于距原点的“原始”偏差的PCA,而右图显示基于与原点的比例(对角线=单位)偏差的PCA。

1)传统PCA将(0,0)原点放入数据均值(质心)中。对于二进制数据,均值不是可能的数据值。但是,它是物理重心。PCA最大限度地提高了可变性。

(也不要忘记,在二进制变量中,均值和方差严格地捆绑在一起,可以说它们是“一件事”。对二进制变量进行标准化/定标,即基于相关性而不是协方差进行PCA,当前实例,则意味着您会阻止更平衡的变量(方差更大)对PCA的影响要大于偏斜变量的影响。)

在此处输入图片说明

2)您可以在非中心数据中进行PCA,即让原点(0,0)定位(0,0)。它是MSCP(X'X/n)矩阵或余弦相似度矩阵上的PCA 。PCA使无属性状态的突出性最大化。

在此处输入图片说明

3)您可以让原点(0,0)位于从曼哈顿到其他所有数据点的最小曼哈顿距离之和的数据点-L1 medoid。通常,Medoid被理解为最“代表性”或“典型”的数据点。因此,PCA将最大程度地提高非典型性(除了频率)。在我们的数据中,L1 medoid位于(1,0)原始坐标上。

在此处输入图片说明

4)或将原点(0,0)放在频率最高的数据坐标处-多元模式。它是(1,1)我们示例中的数据单元。PCA将最大化(受驱动)初级模式。

在此处输入图片说明

5)在答案的主体中,有人提到四项相关是对二进制变量进行因子分析的合理方法。关于PCA,也可以这样说:您可以基于四色相关来进行PCA 。但是,这意味着您在二进制变量中假设了基础连续变量。


2
关于二元项上的FA与IRT模型(1-和2-PL)之间的联系,这里有两篇可能很有趣:Takane&de Leeuw,关于项响应理论与离散变量的因子分析之间的关系Psychometrika( 1987)52(3):393; 最近的一本,Kamata&Bauer,关于因子分析和项目响应理论模型之间关系的注释SEM(2008)15:136。
chl
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.