第一个主要组件不会分隔类别,而其他PC会分开。那怎么可能?


11

我对17个定量变量运行了PCA,以获取较小的变量集(即主要成分),该变量集用于有监督的机器学习中,用于将实例分为两类。在PCA之后,PC1占数据方差的31%,PC2占数据的17%,PC3占10%,PC4占8%,PC5占7%,PC6占6%。

但是,当我看两类计算机之间的均值差异时,令人惊讶的是,PC1不能很好地区分两类计算机。剩下的PC就是很好的鉴别器。另外,PC1在决策树中使用时变得无关紧要,这意味着在修剪树后甚至在树中都不存在它。该树由PC2-PC6组成。

这个现象有什么解释吗?衍生变量会出问题吗?


5
阅读此最新问题stats.stackexchange.com/q/79968/3277,并附带更多链接。由于PCA不会知道它不阶级的存在保证,任何电脑都将是非常好的鉴别; 而且PC1将是一个很好的鉴别器。另请参见此处的两个图片示例。
ttnphns

2
另请参阅什么会导致PCA恶化分类器的结果?,尤其是@vqv答案中的数字。
变形虫

Answers:


14

如果在执行PCA之前未将变量缩放为具有单位方差,也会发生这种情况。例如,对于这些数据(请注意,比例仅从变为而从变为):- 0.5 1 x - 3 3y0.51x33

在此处输入图片说明

PC1大约为,几乎占所有方差,但没有判别力,而PC2为,可以完美区分各个类。ÿxy


嗨,谢谢您的回答!应该如何缩放?(x均值)/ sd?
Frida 2013年

是的,在RI中使用prcomp(x, center=T, scale=T)的与(x-mean)/ sd相同。在此示例中,您会发现,没有哪个主成分可以很好地区分类。仅当它们一起使用时才有效。
Flounderer 2013年

我知道PC是互补的,但是对此有什么解释吗?老实说,这是我第一次获得比其他人更弱的PC1。
Frida 2013年

@Frida:ttnphns的评论很准确。请参阅en.wikipedia.org/wiki/Linear_discriminant_analysis第三段。从某种意义上说,幸运的是PCA如此有用。
韦恩

6

我认为@Flounderer提供的答案和示例都暗示了这一点,但我认为值得将其阐明。主成分分析(PCA)对标签(分类)无所谓。它所做的只是将一些高维数据转换到另一个维空间。例如,通过创建更容易通过特定方法分离的数据集,这可能有助于分类尝试。但是,这只是PCA的副产品(或副作用)。


1

当我们进行主成分分析时,主成分对应于最大可变性的方向,它们不能保证最大的区分或类别之间的分离。

因此,第二个组件为您提供了良好的分类,这意味着该方向上的数据可以使您更好地区分类。当您执行线性判别分析(LDA)时,它将为您提供最佳的正交方向分量,这些分量可以最大程度地增加类间距离并最小化类内距离。

因此,如果您对数据执行LDA而不是PCA,那么最早的组件之一可能更接近PC6,而不是PC1。希望这可以帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.