PCA在多重共线性下不稳定吗?


25

我知道在回归情况下,如果您有一组高度相关的变量,由于估计系数的不稳定性(方差趋于零,而行列式趋于零),这通常是“不好的”。

我的问题是,这种“弊端”在PCA情况下是否仍然存在。当协方差矩阵变得奇异时,任何特定PC的系数/载荷/权重/特征向量会变得不稳定/任意/不唯一吗?对于仅保留第一个主要成分而所有其他成分都被视为“噪音”或“其他”或“不重要”的情况,我尤其感兴趣。

我不这么认为,因为您将剩下一些具有零或接近零方差的主要成分。

容易看到,在具有2个变量的简单极端情况下,情况并非如此-假设它们是完全相关的。然后,第一个PC将是精确的线性关系,第二个PC将与第一个PC垂直,所有观测值的所有PC值都等于零(即零方差)。想知道它是否更一般。


8
你的推理很好。实际上,人们会期望当两个或多个特征值几乎重合时会发生不稳定性,因为那时虽然确定了特征值,但特​​征向量却没有,因此载荷也没有。由于数值上的原因,与最大特征值相比尺寸很小的特征值(和特征向量)也存在不稳定性。
whuber

@whuber评论回答了您的问题,但是我想指出,如果有2个完全相关的变量,则PCA应该没有任何问题。协方差矩阵的等级为1,因此只有1个非零特征值,因此只有1个PC。原始变量将是此PC的倍数。唯一的问题可能是数值稳定性。
mpiktas 2011年

实际上,我认为如果您拥有适度相关的变量,则比拥有真正高度相关的变量的情况要差。如果您使用的是像NIPALS这样的算法,它也可以按顺序删除PC,那么从数字角度来说也是如此
JMS

一件事-“高度相关”和“共线性”不相同。如果涉及两个以上的变量,则共线性并不意味着相关。
彼得·弗洛姆

Answers:


11

答案可能在更简单的术语来给出:多元回归有一个一步更比PCA如果线性代数的角度看待,并从第二步骤的不稳定性开始存在:

[R大号大号Ť

大号
大号


这大致就是我想要的。实际上,阅读完您的答案后,我想到了另一种解释:旋转在数值上是稳定的,而与协方差/相关矩阵的决定因素无关。并且由于可以将PCA框架化为找到坐标轴的最佳旋转,因此它在数值上也将是稳定的。
概率

是的,例如,在斯坦·穆莱克(Stan Mulaik)的“因子分析基础”中,明确地提及了pc旋转的稳定性(雅可比方法),如果我正确地记得源的话。在我自己执行因子分析的过程中,我可以通过旋转来完成所有操作:PCA,Varimax甚至“主轴分解”(SPSS中的PAF)都可以基于旋转来重建。如果多重回归基于cholesky因子L,而L中包含自变量的部分位于PC位置,则多重共线性甚至可以得到更好的控制。
戈特弗里德·赫尔姆斯

3

PCA通常是达到目的的手段。导致产生多元回归的输入或用于聚类分析。我认为就您而言,您正在谈论使用PCA的结果进行回归。

在这种情况下,执行PCA的目标是摆脱多元线性,并获得多元回归的正交输入,这并不奇怪,这被称为主成分回归。在这里,如果所有原始输入都是正交的,那么进行PCA会给您另一组正交输入。因此; 如果您正在执行PCA,将假定您的输入具有多重共线性。

λ一世^一世ŤHλ一世^p

参考文献

强生(Johnson&Wichern)(2001)。应用多元统计分析(第6版)。学徒大厅。


6
我不确定OP是否在PCR之后。PCA还是汇总多元数据集的一种好方法(不一定要进行建模中后续使用的数据缩减),即在保留大部分信息的同时,将VC矩阵近似为低阶矩阵。问题似乎是:在解释前几个特征值和PC(作为原始变量的线性组合)时,我是否正确,即使存在一些共线性影响?您的回应似乎并未直接解决OP的问题。
chl

2
一般而言,关于PCA的好答案,但是PCA何时成为最终产品呢?也就是说,目标是输出一台PC。@Chl对这个问题的解释是对的,这是对
概率的

@chl您对以下问题的回答是什么:“即使有共线性影响,解释前几个特征值和PC时我是对的吗?” 我之所以问是因为,我试图找出何时执行降维时保持高度相关的变量是一个好主意。有时,当我们从理论上知道两个变量由相同的潜在变量驱动时,则应删除其中一个变量,以免对潜在变量的作用进行两次计数。我试图考虑什么时候可以保留相关变量。
Amatya
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.