我必须减少变量数量以进行聚类分析。我的变量之间有很强的相关性,因此我考虑进行因素分析 PCA(主要成分分析)。但是,如果使用所得分数,则我的聚类不是很正确(与文献中以前的分类相比)。
题:
我可以使用旋转矩阵为每个组件/因子选择负荷最大的变量,而仅将这些变量用于聚类吗?
任何参考书目也将有所帮助。
更新:
一些澄清:
我的目标: 我必须通过SPSS使用两步算法进行聚类分析,但是我的变量不是独立变量,因此我考虑丢弃其中的一些变量。
我的数据集: 我正在研究100,000个案例的15个标量参数(我的变量)。一些变量具有高度相关性( Pearson)
我的疑问: 由于只需要独立变量,因此我想进行主成分分析(对不起:我在最初的问题中错误地谈到了因子分析,这是我的错误),并且只为每个组件选择负荷最大的变量。我知道PCA过程存在一些任意步骤,但是我发现此选择实际上类似于IT Jolliffe(1972&2002)提出的“ 方法B4 ”来选择变量,JR King和DA Jackson也在1999年提出了这种选择。 。
因此,我正在考虑以这种方式选择一些自变量子组。然后,我将使用这些组来运行不同的聚类分析,并将比较结果。