在因素分析/ PCA中进行旋转的直观原因是什么?如何选择合适的旋转?


33

我的问题

  1. 在因子分析(或PCA中的组件)中进行因子轮换的直观原因是什么?

    我的理解是,如果变量几乎均等地加载到顶部组件(或因子)中,那么显然很难区分这些组件。因此,在这种情况下,可以使用旋转来更好地区分组件。它是否正确?

  2. 轮换会有什么结果?这会影响什么?

  3. 如何选择合适的旋转度?有正交旋转和倾斜旋转。如何在这些之间进行选择,这种选择的含义是什么?

请用最少的数学方程式直观地解释。分散的答案中很少有数学上很繁重的内容,但出于直观原因和经验法则,我正在寻找更多答案。

Answers:


34
  1. 旋转的原因。旋转是为了解释因子分析(或PCA中的组件,如果您冒险使用PCA作为因子分析技术)中提取的因子的缘故。当您描述自己的理解时,您是对的。旋转是在追求载荷矩阵的某些结构时进行的,这可以称为简单结构。当不同的因素倾向于加载不同的变量时11个。[我认为说“一个因素加载一个变量”比“一个变量加载一个因素”更正确,因为它是使变量相互关联的因素”在变量中”或“后面”,但是您可能会说从某种意义上说,典型的简单结构是相关变量的“簇”出现的地方。然后,您将一个因素解释为含义,该含义取决于该因素所加载的变量含义的交集;因此,要获得不同的含义,因素应以差异方式加载变量。一条经验法则是,一个因素应至少加载3个变量。

  2. 后果。旋转不会改变变量在因子空间中相对于彼此的位置,即,变量之间的相关性得以保留。变化的是变量向量端点在因子轴上的坐标-载荷(请在此站点上搜索“载荷图”和“标尺”,以了解更多)2。在加载矩阵正交旋转后,因子方差得到更改,但是因子保持不相关并且保留了可变的社区。2

    倾斜旋转的情况下,如果因子将产生更清晰的“简单结构”,则可以使其失去相关性。但是,对相关因素的解释是一门比较困难的技术,因为您必须从一个因素中得出含义,这样它才不会污染与之相关的另一个因素的含义。这意味着您必须并行而不是一一解释因素。斜旋转叶片你负荷的两个矩阵,而不是一个:模式矩阵P和结构矩阵小号。(小号=PC,其中C是因素之间的相关性的矩阵; C=,其中是倾斜旋转矩阵:小号=一种,其中一种是任何旋转之前的加载矩阵。)模式矩阵是回归权重矩阵,因子通过该权重来预测变量,而结构矩阵是相关性(或因子和变量之间的协方差)。在大多数情况下,我们通过模式加载来解释因素,因为这些系数代表变量中因素的唯一个性化投资。倾斜旋转保留可变的族,但族不再等于PS中平方的行总和小号。此外,由于因素相互关联,因此它们的方差部分重叠33

    当然,正交旋转和倾斜旋转都会影响您可能要计算的因子/组分得分(请在此站点上搜索“因子得分”)。实际上,轮换会为您提供除提取4之后的其他因素。他们继承了他们的预测能力(对于变量及其相关性),但是它们将从您那里获得不同的实质意义。轮换之后,您可能不会说“这个因素比那个因素更重要”,因为它们是彼此相对旋转的(老实说,在FA中,与PCA不同,即使在提取之后,您也很难说出来,因为因素被建模为已经“重要”)。4

  3. 选择。正交旋转和倾斜旋转有多种形式。为什么?首先,因为“简单结构”的概念不是明确的,可以用不同的方式表述。例如,varimax(最流行的正交方法)试图使每个因子的载荷平方值之间的方差最大化。有时使用的正交方法quartimax将解释变量所需的因素数量减至最少,并经常产生所谓的“一般因素”。其次,除了简单的结构之外,不同的旋转针对不同的副物镜。我不会详细介绍这些复杂的主题,但是您可能想自己阅读它们。

    应该选择正交旋转还是倾斜旋转?好吧,正交因子更容易解释,整个因子模型在统计上也更简单(当然,正交预测因子)。但是,你强加正交你要发现的潜在特质; 您确定它们在您所研究的领域中应该是无关的吗?如果不是,那该怎么办?倾斜旋转方法55(尽管每个都有自己的倾向)允许但不强迫因素相关,因此限制较少。如果倾斜旋转表明因素之间的关联性很弱,则您可以确信“实际上”是这样,然后您可以良心转向正交旋转。如果因素,而另一方面,都非常相关的,它看起来不自然(对于概念上不同的潜在特质,特别是如果你正在开发在心理学或这样的库存, -回忆一下,一个因素本身就是一个单变量特征,而不是一个批次的现象),您可能希望提取较少的因子,或者将倾斜结果用作批处理源以提取所谓的二阶因子。


1个瑟斯顿提出了五个简单结构的理想条件。最重要的三个是:(1)每个变量必须至少具有一个接近零的负载;(2)对于至少m个变量,每个因子必须具有接近零的载荷(m是因子的数量);(3)对于每对因素,至少有m个变量中的一个负荷接近零,而另一个负荷则远离零。因此,对于每对因子,理想情况下它们的载荷图应类似于:

在此处输入图片说明

这是纯粹用于探索性FA,而如果您正在做并重做FA以开发问卷,则最终您将希望删除除蓝色点以外的所有点,前提是您只有两个因素。如果存在两个以上的因素,则对于其他一些因素的负荷图,您将希望红点变为蓝色。


2

在此处输入图片说明


3小号小号一种1个-[R一世2C-1个


4


5(通常)或没有。归一化使所有变量在旋转时同等重要。


一些线程供进一步阅读:

是否有理由完全不考虑因素?

倾斜旋转后要解释哪个矩阵-模式或结构?

因子旋转技术(varimax等)的名称是什么意思?

旋转了零件的PCA还是PCA还是因素分析?


1
+1。由于我看到了这个问题,所以希望您能提供一个答案。顺便说一句,令我感到惊讶的是,以前没有在这里问过这样的问题(至少没有这么清楚的形式)。
变形虫说恢复莫妮卡2015年

+1。谢谢回复!1)我分别理解因子分析和PCA,但是“ PCA作为因子分析技术”是什么意思?PCA和FA是满足2个独立目标的2件事吗?这是否意味着当PCA组件具有复杂的结构时,我无法使用旋转来简化?
GeorgeOfTheRF

2)“ Varimax试图使每个因子的载荷之间的方差最大化”使载荷之间的方差最大化的优势是什么?
GeorgeOfTheRF 2015年

对于您(1)中的注释:是的,两种分析方法是不同的。但是人们有时将PCA用于FA的目的。在那里查看我的答案和整个相关主题。您可以在PCA中使用与FA完全一样的要素旋转,也可以在与FA相同的背景上使用。关于旋转,没有区别。
ttnphns 2015年

供您评论(2)。Varimax最大程度地增加了载荷的绝对量的方差:因此,每个因子的因子载荷都被“分解”为(绝对)大和小。Quartimax试图这样做,以便每个变量只加载一个因素。
ttnphns 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.