能否使用多元回归从其他几台PC预测一个主成分(PC)?


15

不久前,R-help邮件列表上的用户询问了在回归中使用PCA分数的合理性。用户正在尝试使用一些PC分数来解释另一台PC的变化(请参见此处的完整讨论)。答案是不,这不是声音,因为PC彼此正交。

有人可以详细解释为什么会这样吗?


1
为什么要放置r标签,“为什么这样”是什么意思?PC不相关,即它们是正交的,可加的,您无法预测一台PC与另一台PC。您在寻找配方吗?
aL3xa 2010年

我想知道逻辑背后的原理(为了理解PCA)。我使用R标签是因为R的人可能会读这本书,并可能显示R的示例。:)
RomanLuštrik10年

哦,你为什么不这么说?您是否看到过statmethods.net/advstats/factor.html
aL3xa 2010年

Answers:


11

主成分是所有因子(X)的加权线性组合。

例如:PC1 = 0.1X1 + 0.3X2

每个因素只有一个部分(尽管通常选择的部分很小)。

通过设计,组件被创建为具有零相关性(正交)。

因此,组件PC1不应解释组件PC2的任何变化。

您可能想对Y变量和X的PCA表示进行回归,因为它们没有多重共线性。但是,这可能很难解释。

如果X的数量大于观测值的数量(这会破坏OLS),则可以对组件进行回归,并只需选择较少数量的最大变化分量。

Jollife撰写的《主成分分析》是一本非常深入并被广泛引用的书

这也很好:http : //www.statsoft.com/textbook/principal-components-factor-analysis/


11

从定义上看,主分量是正交的,因此任何两台PC的相关性均为零。

但是,如果有大量解释变量,则可以在回归中使用PCA。这些可以减少到少量的主成分,并在回归中用作预测变量。


那不是FA吗?
RomanLuštrik'10

3
不。FA不是回归。我指的是对根据大量解释变量计算出的主要成分进行回归的响应变量。主要成分本身与FA的因素密切相关。
罗伯·海德曼

抱歉,我的评论应该更准确。您写的解释性变量可以减少到少量PC的文章被称为“因素分析”。
RomanLuštrik2010年

在具有n个变量的集合中,可以提取n台PC,但是您可以决定要保留几台PC,例如Guttman-Keiser准则说:将所有特征值(方差)大于1的PC保留在那里。 。
aL3xa

7

小心...仅仅因为PC相互垂直构造并不意味着没有图案,或者一台PC似乎无法“解释”其他PC上的某些东西。

考虑3D数据(X,Y,Z),这些数据描述了均匀分布在美式橄榄球表面上的大量点(对于从未看过美式橄榄球的人来说,这是一个椭圆体,而不是一个球体)。想象一下,橄榄球是任意配置的,因此X,Y或Z都不沿着橄榄球的长轴方向。

主要成分将PC1沿足球的长轴放置,该轴描述了数据中的最大差异。

对于PC1尺寸中沿足球长轴的任何点,以PC2和PC3表示的平面切片应描述一个圆,并且此圆形切片的半径取决于PC1尺寸。的确,PC1上的PC2或PC3的回归应该全局给出零系数,但不要在足球的较小部分上给出……。很显然,PC1和PC2的2D图将显示“有趣的”极限边界这是二值,非线性和对称的。


3

如果您的数据是高维且嘈杂的,并且没有大量样本,则可能会出现过拟合的危险。在这种情况下,使用PCA(可以捕获数据差异的主要部分;正交性不是问题)或因子分析(可以找到数据背后的真正解释变量)确实有意义,以减少数据维数,然后与他们一起训练回归模型。

对于基于因子分析的方法,请参见本文贝叶斯因子回归模型,以及该模型非参数贝叶斯版本,该模型不假定您具有先验知识 知道相关因子(或PCA的主要成分)的“真实”数目。

我要补充一点,在许多情况下,有监督的降维方法(例如Fisher判别分析)可以改进基于简单PCA或FA的方法,因为您可以在进行降维的同时使用标签信息。


0

可能会如果预测PC得分从不同的变量,或提取的情况下,比预测的PC分值将其拉出。如果是这种情况,则预测和预测变量将不会正交,或者至少不需要正交,则当然不能保证相关性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.