我可以使用PCA进行变量选择以进行聚类分析吗?


12

我必须减少变量数量以进行聚类分析。我的变量之间有很强的相关性,因此我考虑进行因素分析 PCA(主要成分分析)。但是,如果使用所得分数,则我的聚类不是很正确(与文献中以前的分类相比)。

题:

我可以使用旋转矩阵为每个组件/因子选择负荷最大的变量,而仅将这些变量用于聚类吗?

任何参考书目也将有所帮助。

更新:

一些澄清:

  • 我的目标: 我必须通过SPSS使用两步算法进行聚类分析,但是我的变量不是独立变量,因此我考虑丢弃其中的一些变量。

  • 我的数据集: 我正在研究100,000个案例的15个标量参数(我的变量)。一些变量具有高度相关性( Pearson)>0.9

  • 我的疑问: 由于只需要独立变量,因此我想进行主成分分析(对不起:我在最初的问题中错误地谈到了因子分析,这是我的错误),并且只为每个组件选择负荷最大的变量。我知道PCA过程存在一些任意步骤,但是我发现此选择实际上类似于IT Jolliffe(1972&2002)提出的“ 方法B4 ”来选择变量,JR King和DA Jackson也在1999年提出了这种选择。 。

    因此,我正在考虑以这种方式选择一些自变量子组。然后,我将使用这些组来运行不同的聚类分析,并将比较结果。


1
如果您知道正确的答案,为什么还要进行分析?
StasK,2011年

1
另一方面,为什么您认为需要减少用于聚类分析的变量数量?我认为任何现代聚类分析工具都不会对输入变量的数量产生任何限制。当然,如果您的测试包含120个项目,那么事情会变得很复杂。
StasK,2011年


在我看来,此Q的聚类分析方面的增加使其与众不同,足以保持开放状态。
gung-恢复莫妮卡

您似乎对复制品采用比我严格的标准,@ gung;也许您是对的(并且对这一点的投票也不太理想)。但是,在这种特殊情况下,OP询问的是我建议的线程中涉及的最简单的基于PCA的功能选择(如他的更新所阐明)。另一方面,StasK在此处发布了一个有趣的答案,特别是关于集群的问题……
变形虫说Reinstate Monica

Answers:


7

按照我的习惯,我将退后一步,并确切地询问您要做什么。因子分析旨在查找潜在变量。如果要查找潜在变量并将它们聚类,那么您所做的就是正确的。但是您说您只是想减少变量的数量-而是建议进行主成分分析。

但是,无论使用哪种方法,都必须对新变量进行聚类分析,而这些新变量只是旧变量的加权和。

您有多少个变量?它们之间的相关性如何?如果数量太多,并且它们之间的相关性非常强,则可以在一个非常高的数字上查找所有相关性,然后从每对中随机删除一个变量。这减少了变量的数量,并使变量保持原样。

让我也回应@StasK关于根本需要这样做的问题,以及@ rolando2关于发现与以前发现的发现有所不同的有用性。正如我在研究生院最喜欢的教授所说的那样:“如果您不感到惊讶,那么您什么都没学”。


1
首先,很抱歉:我实际上是指主成分分析,而不是因果分析,这是我的错误。而且,我一直在寻找一种方法来选择我将要保留的任意相关变量。我想补充有关上述问题的详细信息..再次感谢你
恩。

5

通过结构方程混合模型可以同时执行因子分析和聚类分析。在这些模型中,假设每个群集都有单独的模型(在这种情况下为因子模型)。您将需要进行均值分析以及协方差分析,并且与普通香草因子分析相比,您需要更多地关注识别。从SEM角度出发的想法出现在Jedidi等人的著作中。等 (1997年),从聚类角度看,在Adrian Raftery的基于模型的聚类中。显然,Mplus中提供了这种类型的分析。


1
感谢您的投入,特别是参考文献的投入,但是我错误地提到了因素分析:我实际上是在考虑主成分,以便将变量集减少为一组独立变量。我的错误
zh。

2

我认为这不是纯粹和简单的“正确性”问题,而是它是否可以完成您想要的工作。您所描述的方法最终将以某种淡化的方式根据某些因素进行聚类,因为您将仅使用一个指标来表示每个因素。每个这样的指标都无法代表潜在的潜在因素。那是一个问题。

另一个问题是,正如我(和许多其他人)所说,因素分析本身充满了主观决定,涉及如何处理丢失的数据,要提取的因素数量,如何提取,是否以及如何轮换等等。上。因此,您可能还无法清楚地知道,以快速的,软件默认的方式提取的因素(正如我认为您所暗示的)在任何意义上都是“最佳”的。

因此,您可能总共使用了淡化版本的因素,这些因素本身值得商as,这是表征数据基础主题的最佳方法。我不希望这些输入变量产生的聚类将是最有信息或最独特的。

另一方面,您似乎认为将集群成员资格/配置文件与其他研究人员的发现不符是一个问题。有时,令人怀疑的发现可能非常有益!


非常感谢您,我在上面添加了更多信息来阐明我的疑问
zh。

0

在您的情况下可能发生的情况是,因子分析中提取的因子具有补偿原始变量中的正负负载的功能。这将减少作为聚类目的的差异性。

您能否将每个提取的因子分解为2个-一个仅具有正载荷,另一个仅具有负载荷?

将每个案例的每个因子的因子得分替换为正得分和负得分,并尝试在这一组新得分上聚类。

如果适合您,请插入一行。


0

您可以扫描高值和低值,并将所有变量保留在因子中。这样,就无需削减因素。如果根据载荷的符号以某种方式拆分因子1(例如),则在因子2中,符号可能会完全不同。然后,您将分解因子2与因子1的方式不同吗?这似乎令人困惑。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.