PCA或因子分析中的变量偏斜


9

我想基于22个变量对SPSS进行主成分分析(因子分析)。但是,我的一些变量非常偏斜(根据SPSS计算得出的偏斜范围为2–80!)。

所以这是我的问题:

  1. 我应该保留这样的偏斜变量,还是可以在主成分分析中转换变量?如果是,我将如何解释因子得分?

  2. 我应该进行哪种类型的转换?log10还是ln?

  3. 最初,我的KMO(Kaiser–Meyer–Olkin)为0.413。许多文献建议最小值为0.5。我仍然可以进行因子分析,还是需要删除变量以将我的KMO提高到0.5?


5
注意事项:PCA与因子分析不同。PCA是一种数据约简方法,FA是一种寻找潜在变量的尝试。他们经常(但不总是)给出相似的结果
彼得·弗洛姆

Answers:


9
  1. PCA中的偏度问题与回归分析中的偏度问题相同:较长的尾巴(如果相对于分布的整个范围而言确实很长)实际上表现得像一个离群值-将拟合线(您的情况下的主要成分)强烈拉向本身,因为它的影响力得到增强;它的影响力得到了增强,因为它离平均值还很远。在PCA的情况下,允许非常偏斜的变量与在不使数据居中的情况下进行PCA非常相似(即,基于余弦矩阵而不是相关矩阵进行PCA)。决定是否允许长尾影响如此之大(让数据成为事实)或不影响(并转换数据)的决定者。问题与如何解释载荷无关。

  2. 随你便。

  3. KMO是一个指数,它告诉您局部相关性是否较小,可以将数据提交给因子分析。因为在因子分析中,我们通常期望因子加载的不仅仅是两个变量。您的KMO足够低。如果从单个KMO值较低的分析变量中删除(它们形成了反图像矩阵的对角线,则可以要求在SPSS Factor过程中显示此矩阵),因此可以做得更好。可以将变量转换为偏斜程度较小的恢复KMO吗?谁知道。也许。请注意,KMO最重要的是在因素分析模型中,而不是在主成分分析模型中:在FA中,您需要成对相关,而在PCA中,您不需要。


2

+1到@ttnphns,我只想在#2点稍微扩展一下。转换通常用于稳定偏斜。正如@ttnphns所指出的,您将运行分析之前使用它们。对数转换是Box-Cox功率转换系列的一部分。您将要考虑的范围不仅限于日志(例如,平方根,倒数等),还包括更多可能的变换。在不同对数碱基之间进行选择不会影响转换强度。当人们要对转换后的变量进行数学运算时,有时首选自然对数,因为自然对数在某些情况下可以简化数学运算。如果您不在乎,则可能需要选择一个有助于解释的基础。也就是说,新单位的每增加一个单位都会代表一个基数原始比例增加1倍(例如,如果使用对数基数2,则每个单位将增加2倍,以10为底意味着每个单位将增加10倍,依此类推),所以它可能很好选择一个基准,以便您的数据将在转换后的范围内跨越多个单位。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.