最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?


25

假设我正在回归。为什么通过选择X的k个主成分,模型对Y保持预测能力?YXkXY

从降维/特征选择的角度来看,如果我理解v kX的协方差矩阵的特征向量,具有最高k个特征值,则X v 1X v 2X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1,v2,...vkXkXv1,Xv2...Xvkkk

但是,为什么前分量保留对Y的预测能力?kY

如果我们谈论的一般OLS ,没有理由认为,如果功能ž 有最大方差,然后ž 对大多数预测能力ŸYZZiZiY

看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?


3
您是正确的:没有数学上的理由来假设X的前 PC 具有预测能力-就像通常没有数学上的理由来假设任何协变量X都与给定Y具有任何关系一样。看来您可能是在指所遇到的某些陈述:确切说出了什么,谁说了?KXXY
ub

@whuber我想我似乎有很多使用PCA进行尺寸缩减的例子。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则,这就是缩小尺寸的重点吗?
仇杀队2015年

Answers:


43

确实,不能保证顶级主要成分(PC)的预测能力要比低方差成分更高。

在不是这种情况的情况下,可以找到真实的例子,并且很容易构造一个人工的例子,例如,只有最小的 PC与有任何关系。y

在我们的论坛上,这个话题进行了很多讨论,并且(不幸的)缺少一个明显的规范线程,我只能给出几个链接,这些链接一起提供了各种现实生活以及虚假的示例:

和同一主题,但是在分类的上下文中:


然而,在实践中,顶级的电脑经常往往有更多的预测能力比低方差的,而且,只使用顶级的PC能够产生更好的预测能力比使用所有PC。

pnpnp>n

yX

请参阅@cbeleites(+1)的后面的答案,以获取有关为什么经常需要执行此假设的一些讨论(还有这个更新的主题:降维几乎总是对分类有用吗?以作进一步评论)。

Hastie等。在统计学习的要素(第3.4.1节)中,在岭回归的背景下对此进行了评论:

X

有关详细信息,请参见以下线程中的答案:


底线

对于高维问题,使用PCA进行预处理(意味着降低维数并仅保留顶级PC)可以被视为正则化的一种方法,并且通常可以改善任何后续分析的结果,无论是回归分析还是分类方法。但是,不能保证这将起作用,并且通常会有更好的正则化方法。


感谢您收集答案中的参考。这是最近的另一个。有更多链接的答案。
ttnphns

谢谢@ttnphns!我没有看到该帖子,因为它没有[pca]标签(我只关注少数几个特定标签)。实际上,我很不高兴看到5-10个紧密相关的线程存在松散的集合,没有问题和没有答案是非常完美的,并且它们之间没有真正的重复。我希望有一个规范的线程可以用于将来的参考...
变形虫说恢复莫妮卡

我已将标签添加到该问题。关于这个有趣主题的“完美”百科全书式答案正在等待其作者。:-)您可能决定成为一个。
ttnphns

同样相关:onestop
kjetil b halvorsen

11

除了已经侧重于数学特性的答案之外,我还要从实验的角度进行评论。

简介:数据生成过程通常以使数据适合于主成分(PCR)或偏最小二乘(PLS)回归的方式进行优化。


我是分析化学家。当我设计用于测量(回归或分类)某些东西的实验/方法时,我会利用我对应用程序和可用仪器的知识来获取相对于手头任务具有良好信噪比的数据。这意味着,我生成的数据被设计为与目标属性具有较大的协方差。
这导致了一个方差结构,其中有趣的方差很大,而以后的PC将仅携带(小)噪声。

为了获得更可靠或更精确的结果,我也更喜欢产生关于手头任务的冗余信息的方法。PCA将冗余的测量通道集中到一台PC中,然后PC携带大量差异,因此是第一批PC之一。

如果存在已知的混杂因素会导致与目标属性不相关的大方差,那么我通常会在数据预处理期间尝试尽可能多地校正这些混杂因素:在许多情况下,这些混杂因素是已知的物理或化学性质,并且此知识为纠正混杂因素提供了适当的方法。例如,我在显微镜下测量拉曼光谱。它们的强度取决于激光的强度以及我对显微镜的聚焦程度。两者都会导致可以通过归一化(例如对已知为恒定的信号)进行校正的更改。
因此,在数据进入PCA之前可能已经消除了对解决方案无贡献的较大方差贡献者,而在最初的PC中留下了大部分有意义的方差。


最后但并非最不重要的一点是,这里有一个自我实现的预言:显然,PCR是对数据进行的,但前提是携带信息的方差大的假设确实有意义。例如,如果我认为可能存在一些我不知道如何纠正的重要混杂因素,那么我将立即选择PLS,因为PLS可以更好地忽略对预测任务无济于事的巨大贡献。


+1。非常感谢您加入讨论。
变形虫说莫妮卡(Monica)恢复2015年

@amoeba:感谢您的客气话。与往常一样,您的答案也非常彻底。实际上,我确实依靠您来照顾[pca]!
cbeleites支持Monica

6

PCA有时用于纠正由共线变量引起的问题,以便X空间中的大多数变化都由K个主分量捕获。

但是,这个数学问题当然不同于以无法解释的变化尽可能小的方式捕获X,Y空间中的大多数变化。

偏最小二乘试图从后一种意义上做到这一点:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

正如其他人指出的那样,在前k个特征向量与预测能力之间没有直接联系。通过选择顶部并将其用作基础,您将保留一些顶部能量(或沿这些轴的方差)。

解释最大方差的轴可能实际上对预测有用,但通常情况并非如此。


当您说“一般”时,您是指实际上是一般还是理论上?
变形虫说恢复莫妮卡

@amoeba通常,因为构建数据集很容易,在该数据集中将数据投影到前k个最大方差轴上并不是预测性/区分性的。
弗拉迪斯拉夫(Vladislavs Dovgalecs)2015年

-1

让我提供一个简单的解释。

PCA相当于直观地删除某些功能。这减少了过度装配的机会。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.