如何使用主成分分析选择变量进行回归？

12

我目前正在使用主成分分析来选择要在建模中使用的变量。目前，我在实验中进行了A，B和C测量-我真正想知道的是：我可以减少测量并停止记录C和/或B以节省时间和精力吗？

我发现所有这三个变量都在我的第一个主成分上加重了，这占我数据差异的60％。组件得分告诉我，如果我将这些变量按一定比率（aA + bB + cC）加在一起。我可以在数据集中为每种情况在PC1上获得一个分数，并且可以将此分数用作建模中的变量，但这不能让我停止测量B和C。

如果我对PC1上的A，B和C的负载求平方，我发现变量A占PC1方差的65％，变量B占PC1方差的50％，变量C也占50％，即有些每个变量A，B和C所占PC1方差的一个变量与另一个变量共享，但是A占更大的比例。

认为我可以选择变量A或在模型中使用变量（可能是aA + bB）是错误的，因为该变量描述了PC1中很大一部分的方差，而这又描述了PC1中很大一部分的方差。数据？

您过去采用哪种方法？

即使有其他重型装载机，单个变量在PC1上的负载也最重？
使用所有变量在PC1上的组件得分，即使它们都是重型装载机？

regression pca model-selection

— N26
source

14

您尚未指定要计划的“建模”，但是听起来您正在询问如何在，和选择自变量，以（例如）对它们进行第四个因变量回归。 $A$ $B$ $C$ $W$

要了解这种方法可能会出错，请考虑三个具有单位方差的独立正态分布变量，和对于真实的基础模型，选择一个小的常数，一个非常小的常数，然后让（因变量）（加上一点误差，独立于，，和）。 $X$ $Y$ $Z$ $\beta \ll 1$ $\epsilon \ll \beta$ $W = Z$ $X$ $Y$ $Z$

假设你有是自变量，，和。然后，和高度相关（取决于误差的方差），因为每个值都接近的倍数。但是，与或不相关。因为很小，所以的第一个主分量与特征值平行。和在此组件和上负担沉重 $A = X + \epsilon Y$ $B = X - \epsilon Y$ $C = \beta Z$ $W$ $C$ $Z$ $W$ $A$ $B$ $\beta$ $\{A, B, C\}$ $X$ $2 \gg \beta$ $A$ $B$ $C$ 完全不加载，因为它独立于（和）。但是，如果从自变量中除去，仅保留和，则将丢弃有关因变量的所有信息，因为，和是独立的！ $X$ $Y$ $C$ $A$ $B$ $W$ $A$ $B$

这个例子表明，对于回归，您需要注意自变量如何与因变量相关。您不能仅仅通过分析自变量之间的关系就摆脱困境。

— ub
source

1

这应该是而不是吗？

A = X + ϵ Y

$A = X + \epsilon Y$

Z + ϵ Y

$Z + \epsilon Y$

— shabbychef 2011年

@shabby是的，谢谢。（我必须在草稿中更改所有变量名称以匹配OP的名称，并将其弄乱。）

— whuber

4

如果您只有3个IV，为什么要减少它们？

也就是说，您的样本是否非常小（因此3个IV可能存在过度拟合的风险）？在这种情况下，请考虑偏最小二乘

还是测量非常昂贵（因此，将来您只想测量一个IV）？在这种情况下，我将考虑分别将每个IV一起考虑不同的回归。

还是您过去有人过分强调简约的价值？在这种情况下，为什么不包括所有3个IV？

— 彼得·弗洛姆-恢复莫妮卡
source