不久前,R-help邮件列表上的用户询问了在回归中使用PCA分数的合理性。用户正在尝试使用一些PC分数来解释另一台PC的变化(请参见此处的完整讨论)。答案是不,这不是声音,因为PC彼此正交。
有人可以详细解释为什么会这样吗?
不久前,R-help邮件列表上的用户询问了在回归中使用PCA分数的合理性。用户正在尝试使用一些PC分数来解释另一台PC的变化(请参见此处的完整讨论)。答案是不,这不是声音,因为PC彼此正交。
有人可以详细解释为什么会这样吗?
Answers:
主成分是所有因子(X)的加权线性组合。
例如:PC1 = 0.1X1 + 0.3X2
每个因素只有一个部分(尽管通常选择的部分很小)。
通过设计,组件被创建为具有零相关性(正交)。
因此,组件PC1不应解释组件PC2的任何变化。
您可能想对Y变量和X的PCA表示进行回归,因为它们没有多重共线性。但是,这可能很难解释。
如果X的数量大于观测值的数量(这会破坏OLS),则可以对组件进行回归,并只需选择较少数量的最大变化分量。
Jollife撰写的《主成分分析》是一本非常深入并被广泛引用的书
这也很好:http : //www.statsoft.com/textbook/principal-components-factor-analysis/
从定义上看,主分量是正交的,因此任何两台PC的相关性均为零。
但是,如果有大量解释变量,则可以在回归中使用PCA。这些可以减少到少量的主成分,并在回归中用作预测变量。
小心...仅仅因为PC相互垂直构造并不意味着没有图案,或者一台PC似乎无法“解释”其他PC上的某些东西。
考虑3D数据(X,Y,Z),这些数据描述了均匀分布在美式橄榄球表面上的大量点(对于从未看过美式橄榄球的人来说,这是一个椭圆体,而不是一个球体)。想象一下,橄榄球是任意配置的,因此X,Y或Z都不沿着橄榄球的长轴方向。
主要成分将PC1沿足球的长轴放置,该轴描述了数据中的最大差异。
对于PC1尺寸中沿足球长轴的任何点,以PC2和PC3表示的平面切片应描述一个圆,并且此圆形切片的半径取决于PC1尺寸。的确,PC1上的PC2或PC3的回归应该全局给出零系数,但不要在足球的较小部分上给出……。很显然,PC1和PC2的2D图将显示“有趣的”极限边界这是二值,非线性和对称的。
如果您的数据是高维且嘈杂的,并且没有大量样本,则可能会出现过拟合的危险。在这种情况下,使用PCA(可以捕获数据差异的主要部分;正交性不是问题)或因子分析(可以找到数据背后的真正解释变量)确实有意义,以减少数据维数,然后与他们一起训练回归模型。
对于基于因子分析的方法,请参见本文贝叶斯因子回归模型,以及该模型的非参数贝叶斯版本,该模型不假定您具有先验知识 知道相关因子(或PCA的主要成分)的“真实”数目。
我要补充一点,在许多情况下,有监督的降维方法(例如Fisher判别分析)可以改进基于简单PCA或FA的方法,因为您可以在进行降维的同时使用标签信息。
r
标签,“为什么这样”是什么意思?PC不相关,即它们是正交的,可加的,您无法预测一台PC与另一台PC。您在寻找配方吗?