您不会选择原始的99(100-1)变量的子集。
每个主要成分都是所有99个预测变量(x变量,IV,...)的线性组合。如果使用前40个主要成分,则每个成分都是所有99个原始预测变量的函数。(至少对于普通的PCA-有稀疏/正规化的版本,例如Zou,Hastie和Tibshirani 的SPCA,它们将基于较少的变量生成组件。)
考虑两个正相关变量的简单情况,为简单起见,我们将假定它们是同等变量。然后,第一个主成分将是两个变量之和的(分数)倍,第二个将是两个变量之差的(分数)倍;如果这两个变量不是同等可变的,则第一个主成分将对较大的变量加权更大,但仍将两者都包含在内。
因此,您从99个x变量开始,通过对每个原始变量应用相应的权重,从中计算40个主成分。[注意,在我的讨论中,我假设和X已居中。ÿX
然后,您将使用40个新变量,就好像它们本身就是预测变量一样,就像处理任何多元回归问题一样。(在实践中,有一些更有效的方法来获取估算值,但让我们将计算方面放在一边,只处理一个基本概念)
关于第二个问题,尚不清楚“逆转PCA”是什么意思。
Xž= Xw ^Xn × 99w ^99 × 4040ÿ^= Zβ^个人电脑
ÿ^= Zβ^个人电脑= Xw ^β^个人电脑= Xβ^∗β^∗= Wβ^个人电脑ÿX。当然,它与通过估计原始X的回归获得的系数不同-通过PCA进行正则化;即使您以此方式获得每个原始X的系数,它们也仅具有您拟合的零件数的df。
另请参阅Wikipedia中的主成分回归。