我有一个既包含连续数据又包含分类数据的数据集。我正在使用PCA进行分析,想知道是否可以将分类变量作为分析的一部分。我的理解是PCA只能应用于连续变量。那是对的吗?如果不能将其用于分类数据,则可以使用哪些替代方法进行分析?
我有一个既包含连续数据又包含分类数据的数据集。我正在使用PCA进行分析,想知道是否可以将分类变量作为分析的一部分。我的理解是PCA只能应用于连续变量。那是对的吗?如果不能将其用于分类数据,则可以使用哪些替代方法进行分析?
Answers:
尽管将PCA应用于二进制数据所产生的结果可与通过多对应分析获得的结果相媲美(因子得分和特征值呈线性相关),但还有更合适的技术可用于处理混合数据类型,即对混合数据中的混合数据进行多因子分析。所述FactoMineR ř包(AFDM()
)。如果您的变量可以被视为描述性属性的结构化子集,则也可以使用多因素分析(MFA()
)。
分类变量的挑战是找到一种合适的方法来表示变量类别和阶乘空间中的个体之间的距离。为了克服这个问题,您可以寻找具有最佳缩放比例的每个变量的非线性转换(无论是标称,有序,多项式还是数字)。这在R:Package homal中的最佳缩放的Gifi方法中已得到很好的解释,并且在相应的R package homal中提供了一种实现。
Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysis
,我们是否不能将名义分类变量(假设具有N个基数)转换为(N-1)个伪二进制文件的集合,然后对该数据执行PCA?(我知道还有更多合适的技术)
S. Kolenikov(@StasK)和G. Angeles 对Google搜索“离散变量的pca”进行了很好的概述。要补充到chl答案,PC分析实际上是对协方差矩阵的特征向量的分析。因此,问题在于如何计算“正确的”协方差矩阵。一种方法是使用 多色相关。
我建议您看一下Linting&Kooij,2012年“ 使用CATPCA进行非线性主成分分析:教程 ”,《人格评估》;94(1)。
抽象
本文旨在作为非线性主成分分析(NLPCA)的教程,系统地指导读者完成通过Rorschach Inkblot测试分析人格评估的实际数据的过程。NLPCA是线性PCA的一种更灵活的替代方案,可以处理具有不同类型的测量级别的可能与非线性相关的变量的分析。该方法特别适合于分析可能与数字数据结合的名义(定性)和有序(例如Likert型)数据。分析中使用了SPSS中“类别”模块中的程序CATPCA,但是该方法描述可以轻松地推广到其他软件包。
我尚未获得评论某人的帖子的特权,因此我将我的评论添加为单独的答案,因此请耐心等待。
继续@Martin F的评论,最近我遇到了非线性PCA。当数据变得稀疏时,当连续变量接近序数变量的分布时,我正在研究非线性PCA(可能是另一种选择)(遗传学中很多次该变量的次要等位基因频率越来越低而您又离开了计数数量很少,您不能真正证明连续变量的分布是正确的,因此必须通过使它成为有序变量或分类变量来放松分布假设。)非线性PCA可以处理这两种情况,但是在与遗传学系的统计学大师讨论,共识是非线性PCA的使用不多,并且这些PCA的行为尚未得到广泛测试(可能是它们仅指遗传学领域,因此请以盐为准)。确实,这是一个有趣的选择。我希望我在讨论中添加了2美分(很重要)。