在什么条件下,岭回归能够比普通最小二乘回归有所改善?


16

岭回归估计参数β中的线性模型y=Xβ通过

β^λ=(XX+λI)1Xy,
其中λ是正则化参数。众所周知,当有许多相关的预测变量时,它的性能通常优于OLS回归(λ=0)。

岭回归的存在定理说,总是存在一个参数λ>0,使得β^λ均方误差严格小于OLS的均方误差估算β^OLS=β^0。换句话说,\ lambda的最佳值λ始终为非零。这显然是在1970年的Hoerl和Kennard中首先得到证实的,并且在我在网上找到的许多讲义中都重复了这一点(例如,在这里在这里)。我的问题是关于该定理的假设:

  1. 是否有关于协方差矩阵\ mathbf X ^ \ top \ mathbf X的假设XX

  2. 是否有关于\ mathbf X的维数的假设X

尤其是,如果预测变量正交(即XX是对角线),或者即使\ mathbf X ^ \ top \ mathbf X = \ mathbf I,该定理是否仍然成立XX=I?如果只有一个或两个预测变量(例如,一个预测变量和一个截距)是否仍然成立?

如果该定理没有做出这样的假设,即使在这些情况下也仍然成立,那么为什么通常仅在相关预测变量的情况下建议使用岭回归,而对于简单(即不是多重)回归却从来不建议?


这与我关于统一收缩率的问题有关:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?,但到目前为止,还没有任何答案可以澄清这一点。


1
似乎除了最后一个问题以外的所有问题都可以直接在Hoerl&Kennard的论文中找到,特别是在引言的第一句话和结论的第一句话中。可以通过指出常数向量与任何单个预测变量之间的协方差始终为零来回答最后一个问题,这使一个(以标准方式)将简化为矩阵。XX1×1
ub

1
谢谢,@ whuber。我确实相信Hoerl&Kennard的论文回答了我的问题(至少是技术性的问题)-一个人应该能够遵循证明并检查假设(我尚未完成)。但是您所指的句子并不能完全说服我。简介的第一句话与我的问题有什么关系?结论的第一句话确实表明,如果具有一致的频谱(例如,等于),那么该定理就不适用。但是我不确定100%,因为我看不出在证明之前明确提出了这个假设。XXI
变形虫说恢复莫妮卡2014年

看什么样的问题可以通过要求高的用户代表(通常谁只回答在这里他们)(并且对于你的其他问题挂钩,差我stats.stackexchange.com/questions/122062/...
javadba

Answers:


11

1和2的答案都不是,但是在解释存在性定理时需要格外小心。

岭估计量的方差

令为惩罚下的岭估计,令为模型的真实参数。令为的特征值。 根据Hoerl&Kennard方程4.2-4.5,风险(按照预期的误差范数表示)为β^kβY=Xβ+ϵλ1,,λpXTX
L2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
据我所知, 他们指出可以解释的内积的方差,而是偏差的内积。(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

假设,则 令 是风险w / r / t的导。由于 ,我们得出结论,存在某个使得。XTX=Ip

R(k)=pσ2+k2βTβ(1+k)2.
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

作者指出,就处的风险而言,正交性是最好的,并且随着条件数的增加,方法。k=0XTXlimk0+R(k)

评论

这里似乎存在一个悖论,即如果且为常数,那么我们只是在估计正态变量序列的均值,并且我们知道香草的无偏估计在这种情况下是可以接受的。通过注意到上述推理仅提供了针对固定存在最小值的方法,可以解决此问题。但是对于任何,我们都可以通过增大来使风险激增,因此仅此论点并不能说明是否适用于岭估计。p=1X(β,σ2)kβTβkβTβ

为什么通常仅在相关预测变量的情况下建议使用岭回归?

H&K的风险推导表明,如果我们认为小,并且如果设计几乎是奇异的,那么我们可以实现估计风险的大幅度降低。我认为不普遍使用岭回归,因为OLS估计是安全的默认值,并且不变性和无偏性很有吸引力。当它失败时,它确实会失败-您的协方差矩阵会爆炸。也许还有一个哲学/推论点,即如果您的设计几乎是单一的,并且您具有观测数据,则可以将解释为在单位变化中给出的变化是可疑的-大协方差矩阵是的症状。 βTβXTXβEYX

但是,如果您的目标仅是预测,则推论关注不再成立,并且您强烈赞成使用某种收缩估计量。


2
哇谢谢!让我检查一下我对您的“注释”部分的理解:对于任何给定的,最优都不为零,但是对于不同的beta,其最佳值是不同的,并且对于所有beta,没有固定的可以超过,这就是可接纳性需要什么。正确?除此之外,您是否可以评论我的一般问题:[如果该定理没有做出这样的假设,那么]为什么通常只建议对相关的预测变量使用岭回归,而不建议对简单(而不是多元)回归进行建议?是因为从经验上知道正面效果太小而难以打扰吗?βkkk=0
变形虫说恢复莫妮卡2014年

2
H&K始终假设是完整等级。通过说出对#1的回答是“否”,您是否声称他们的结果在不是的情况下仍然是正确的?XX
ub

3
@whuber:推论风险的关键是,岭估计,其中是OLS估计,。当秩不足时,这显然不能成立。但是OLS估计不存在-因此,任何具有有限风险的估计(将足够大,您将获得,风险为)更好而不是一个不存在的估计量?至于风险推导是否仍然成立:我不确定。将需要不同的证明。β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
安德鲁M

3
@amoeba:是的,您的重述似乎是正确的。要控制OLS估计量,我们需要某种自适应过程,其中是数据的函数。在您的其他话题上,西安市对自适应脊线估计进行了评论,因此可能值得一看。RE:正交设计的岭估计-我要从他们的证明中得到指导,我还添加了另一条评论。λ
安德鲁M
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.