为什么丹尼尔·威尔克斯(Daniel Wilks,2011)说主成分回归将“有偏见”?


13

在大气科学的统计方法,丹尼尔·威尔克斯指出,多元线性回归可以,如果有该预测结果中很强的互关联(第3版,559-560页)导致的问题:

多重线性回归中可能出现的一种病理现象是,一组具有强互相关性的预测变量会导致计算不稳定的回归关系。

(...)

然后,他介绍了主成分回归:

解决此问题的方法是先将预测变量转换为其主成分,其相关系数为零。

到目前为止,一切都很好。但是接下来,他发表了一些他不解释的声明(或者至少没有足够详细的信息让我理解):

如果所有主成分都保留在主成分回归中,则与整个预测变量集的常规最小二乘拟合没有任何关系。

(..)和:

可以根据原始预测变量重新表达主成分回归,但是即使只使用了一个或几个主成分预测变量,结果通常也将包含所有原始预测变量。尽管通常方差要小得多,但这种重构的回归将是有偏差的,从而导致总体MSE较小。

我不明白这两点。

当然,如果保留了所有主要成分,我们将使用与在原始空间中使用预测变量时相同的信息。但是,通过在主成分空间中进行操作,可以消除互相关的问题。我们可能仍然过拟合,但这是唯一的问题吗?为什么什么都得不到?

其次,即使我们确实截断了主要成分(也许是为了降低噪声和/或防止过度拟合),为什么以及如何导致偏向的重构回归?偏向哪种方式?


本书出处:Daniel S. Wilks,《大气科学中的统计方法》,第三版,2011年。《国际地球物理学丛书》第100卷,学术出版社。


4
(+1)在第二个引号中,“将有偏见”在逻辑上不成立:更好的陈述是较温和的陈述,例如“可能有偏见”。我怀疑其背后的原因可能是由于“由于PCR在参数估计之间施加了线性关系,因此这些估计将倾向于与OLS估计不同;并且由于OLS估计是无偏的,这意味着PCR估计将是有偏见的。” 从直觉上讲,这是一种很好的启发式方法,但并不完全正确。
ub

可以说如果(a)数据点没有占据比所选PC数量低的线性更低或相等维数的流形并且(b)数据点不是完全不相关的,那么“ PCR将是有偏差的”?或如何?
索伦·哈弗伦德·威灵

Answers:


15

使用所有PC时会怎样?

如果使用所有PC,则所得回归系数将与通过OLS回归获得的回归系数相同,因此最好不要将此过程称为“主要成分回归”。这是标准回归,仅以回旋方式执行。

ZZXXi

所以什么也得不到。

仅使用少量PC时会发生什么?

β^PCRβ^OLSβ^

这是偏差方差折衷的一个例子。请参阅收缩为什么起作用?进行进一步的一般性讨论。

yyy

为什么使用高变数PC绝对是个好主意?

这不是问题的一部分,但是您可能会对以下主题感兴趣,以便进一步阅读:顶级主成分如何保持对因变量的预测能力(甚至导致更好的预测)?


YY

@whuber,确实。我已经重写了该段,希望现在更有意义。谢谢。
变形虫说恢复莫妮卡

嗯,对。从本质上讲,有偏差意味着某些点要比其他一些点更平等,这正是我们想要减少噪声和异常值(我们不确定PCA是否是最佳工具)的要求。
Gerrit

@gerrit您写道,偏差似乎等于权重,但它们是独立的东西。在本文中,偏差是指系数估计的期望值与其真实值之间的任何差异。
ub

1
该模型假设响应是随机变量。这使得估计的系数(使用任何过程)也成为随机变量。它们的期望值定义为任何随机变量。根据定义,偏差是期望值和真实值之间的差。OLS系数估计的偏差为零。其他过程的偏差仍可能为零。报价的逻辑是像OLS这样的线性过程会在系数之间施加一定的关系,因此必定会产生偏差。该结论在许多情况下都是正确的,但并非全部。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.