第一个主要组件不会分隔类别，而其他PC会分开。那怎么可能？

11

我对17个定量变量运行了PCA，以获取较小的变量集（即主要成分），该变量集用于有监督的机器学习中，用于将实例分为两类。在PCA之后，PC1占数据方差的31％，PC2占数据的17％，PC3占10％，PC4占8％，PC5占7％，PC6占6％。

但是，当我看两类计算机之间的均值差异时，令人惊讶的是，PC1不能很好地区分两类计算机。剩下的PC就是很好的鉴别器。另外，PC1在决策树中使用时变得无关紧要，这意味着在修剪树后甚至在树中都不存在它。该树由PC2-PC6组成。

这个现象有什么解释吗？衍生变量会出问题吗？

machine-learning classification pca dimensionality-reduction

— 弗里达
source

5

阅读此最新问题stats.stackexchange.com/q/79968/3277，并附带更多链接。由于PCA不会不知道它不阶级的存在保证，任何电脑都将是非常好的鉴别; 而且PC1将是一个很好的鉴别器。另请参见此处的两个图片示例。

— ttnphns

2

另请参阅什么会导致PCA恶化分类器的结果？，尤其是@vqv答案中的数字。

— 变形虫

Answers:

14

如果在执行PCA之前未将变量缩放为具有单位方差，也会发生这种情况。例如，对于这些数据（请注意，比例仅从变为而从变为）： $y$ $-0.5$ $1$ $x$ $-3$ $3$

在此处输入图片说明

PC1大约为，几乎占所有方差，但没有判别力，而PC2为，可以完美区分各个类。 $x$ $y$

— 比目鱼
source

嗨，谢谢您的回答！应该如何缩放？（x均值）/ sd？

— Frida 2013年

是的，在RI中使用prcomp(x, center=T, scale=T)的与（x-mean）/ sd相同。在此示例中，您会发现，没有哪个主成分可以很好地区分类。仅当它们一起使用时才有效。

— Flounderer 2013年

我知道PC是互补的，但是对此有什么解释吗？老实说，这是我第一次获得比其他人更弱的PC1。

— Frida 2013年

@Frida：ttnphns的评论很准确。请参阅en.wikipedia.org/wiki/Linear_discriminant_analysis第三段。从某种意义上说，幸运的是PCA如此有用。

— 韦恩

6

我认为@Flounderer提供的答案和示例都暗示了这一点，但我认为值得将其阐明。主成分分析（PCA）对标签（分类）无所谓。它所做的只是将一些高维数据转换到另一个维空间。例如，通过创建更容易通过特定方法分离的数据集，这可能有助于分类尝试。但是，这只是PCA的副产品（或副作用）。

— 鲍里斯·戈里里克（Boris Gorelik）
source

1

当我们进行主成分分析时，主成分对应于最大可变性的方向，它们不能保证最大的区分或类别之间的分离。

因此，第二个组件为您提供了良好的分类，这意味着该方向上的数据可以使您更好地区分类。当您执行线性判别分析（LDA）时，它将为您提供最佳的正交方向分量，这些分量可以最大程度地增加类间距离并最小化类内距离。

因此，如果您对数据执行LDA而不是PCA，那么最早的组件之一可能更接近PC6，而不是PC1。希望这可以帮助。

— Santanu_Pattanayak
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.