在在大气科学的统计方法,丹尼尔·威尔克斯指出,多元线性回归可以,如果有该预测结果中很强的互关联(第3版,559-560页)导致的问题:
多重线性回归中可能出现的一种病理现象是,一组具有强互相关性的预测变量会导致计算不稳定的回归关系。
(...)
然后,他介绍了主成分回归:
解决此问题的方法是先将预测变量转换为其主成分,其相关系数为零。
到目前为止,一切都很好。但是接下来,他发表了一些他不解释的声明(或者至少没有足够详细的信息让我理解):
如果所有主成分都保留在主成分回归中,则与整个预测变量集的常规最小二乘拟合没有任何关系。
(..)和:
可以根据原始预测变量重新表达主成分回归,但是即使只使用了一个或几个主成分预测变量,结果通常也将包含所有原始预测变量。尽管通常方差要小得多,但这种重构的回归将是有偏差的,从而导致总体MSE较小。
我不明白这两点。
当然,如果保留了所有主要成分,我们将使用与在原始空间中使用预测变量时相同的信息。但是,通过在主成分空间中进行操作,可以消除互相关的问题。我们可能仍然过拟合,但这是唯一的问题吗?为什么什么都得不到?
其次,即使我们确实截断了主要成分(也许是为了降低噪声和/或防止过度拟合),为什么以及如何导致偏向的重构回归?偏向哪种方式?
本书出处:Daniel S. Wilks,《大气科学中的统计方法》,第三版,2011年。《国际地球物理学丛书》第100卷,学术出版社。