我目前正在使用主成分分析来选择要在建模中使用的变量。目前,我在实验中进行了A,B和C测量-我真正想知道的是:我可以减少测量并停止记录C和/或B以节省时间和精力吗?
我发现所有这三个变量都在我的第一个主成分上加重了,这占我数据差异的60%。组件得分告诉我,如果我将这些变量按一定比率(aA + bB + cC)加在一起。我可以在数据集中为每种情况在PC1上获得一个分数,并且可以将此分数用作建模中的变量,但这不能让我停止测量B和C。
如果我对PC1上的A,B和C的负载求平方,我发现变量A占PC1方差的65%,变量B占PC1方差的50%,变量C也占50%,即有些每个变量A,B和C所占PC1方差的一个变量与另一个变量共享,但是A占更大的比例。
认为我可以选择变量A或在模型中使用变量(可能是aA + bB)是错误的,因为该变量描述了PC1中很大一部分的方差,而这又描述了PC1中很大一部分的方差。数据?
您过去采用哪种方法?
- 即使有其他重型装载机,单个变量在PC1上的负载也最重?
- 使用所有变量在PC1上的组件得分,即使它们都是重型装载机?