我知道在回归情况下,如果您有一组高度相关的变量,由于估计系数的不稳定性(方差趋于零,而行列式趋于零),这通常是“不好的”。
我的问题是,这种“弊端”在PCA情况下是否仍然存在。当协方差矩阵变得奇异时,任何特定PC的系数/载荷/权重/特征向量会变得不稳定/任意/不唯一吗?对于仅保留第一个主要成分而所有其他成分都被视为“噪音”或“其他”或“不重要”的情况,我尤其感兴趣。
我不这么认为,因为您将剩下一些具有零或接近零方差的主要成分。
容易看到,在具有2个变量的简单极端情况下,情况并非如此-假设它们是完全相关的。然后,第一个PC将是精确的线性关系,第二个PC将与第一个PC垂直,所有观测值的所有PC值都等于零(即零方差)。想知道它是否更一般。
8
你的推理很好。实际上,人们会期望当两个或多个特征值几乎重合时会发生不稳定性,因为那时虽然确定了特征值,但特征向量却没有,因此载荷也没有。由于数值上的原因,与最大特征值相比尺寸很小的特征值(和特征向量)也存在不稳定性。
—
whuber
@whuber评论回答了您的问题,但是我想指出,如果有2个完全相关的变量,则PCA应该没有任何问题。协方差矩阵的等级为1,因此只有1个非零特征值,因此只有1个PC。原始变量将是此PC的倍数。唯一的问题可能是数值稳定性。
—
mpiktas 2011年
实际上,我认为如果您拥有适度相关的变量,则比拥有真正高度相关的变量的情况要差。如果您使用的是像NIPALS这样的算法,它也可以按顺序删除PC,那么从数字角度来说也是如此
—
JMS
一件事-“高度相关”和“共线性”不相同。如果涉及两个以上的变量,则共线性并不意味着相关。
—
彼得·弗洛姆