如何使用主成分分析选择变量进行回归?


12

我目前正在使用主成分分析来选择要在建模中使用的变量。目前,我在实验中进行了A,B和C测量-我真正想知道的是:我可以减少测量并停止记录C和/或B以节省时间和精力吗?

我发现所有这三个变量都在我的第一个主成分上加重了,这占我数据差异的60%。组件得分告诉我,如果我将这些变量按一定比率(aA + bB + cC)加在一起。我可以在数据集中为每种情况在PC1上获得一个分数,并且可以将此分数用作建模中的变量,但这不能让我停止测量B和C。

如果我对PC1上的A,B和C的负载求平方,我发现变量A占PC1方差的65%,变量B占PC1方差的50%,变量C也占50%,即有些每个变量A,B和C所占PC1方差的一个变量与另一个变量共享,但是A占更大的比例。

认为我可以选择变量A或在模型中使用变量(可能是aA + bB)是错误的,因为该变量描述了PC1中很大一部分的方差,而这又描述了PC1中很大一部分的方差。数据?

您过去采用哪种方法?

  • 即使有其他重型装载机,单个变量在PC1上的负载也最重?
  • 使用所有变量在PC1上的组件得分,即使它们都是重型装载机?

Answers:


14

您尚未指定要计划的“建模”,但是听起来您正在询问如何在,和选择变量,以(例如)对它们进行第四个变量回归。B CABCW

要了解这种方法可能会出错,请考虑三个具有单位方差的独立正态分布变量,和对于真实的基础模型,选择一个小的常数,一个非常小的常数,然后让(因变量)(加上一点误差,独立于,,和)。XYZβ1ϵβW=ZXYZ

假设你有是自变量,,和。然后,和高度相关(取决于误差的方差),因为每个值都接近的倍数。但是,与或不相关。因为很小,所以的第一个主分量与特征值平行。 和在此组件和上负担沉重A=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABC完全不加载,因为它独立于(和)。但是,如果从自变量中除去,仅保留和,则将丢弃有关因变量的所有信息,因为,和是独立的!XYCABWAB

这个例子表明,对于回归,您需要注意自变量如何与因变量相关。您不能仅仅通过分析自变量之间的关系就摆脱困境。


1
这应该是而不是吗?Z + ϵ YA=X+ϵYZ+ϵY
shabbychef 2011年

@shabby是的,谢谢。(我必须在草稿中更改所有变量名称以匹配OP的名称,并将其弄乱。)
whuber

4

如果您只有3个IV,为什么要减少它们?

也就是说,您的样本是否非常小(因此3个IV可能存在过度拟合的风险)?在这种情况下,请考虑偏最小二乘

还是测量非常昂贵(因此,将来您只想测量一个IV)?在这种情况下,我将考虑分别将每个IV一起考虑不同的回归。

还是您过去有人过分强调简约的价值?在这种情况下,为什么不包括所有3个IV?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.