1和2的答案都不是,但是在解释存在性定理时需要格外小心。
岭估计量的方差
令为惩罚下的岭估计,令为模型的真实参数。令为的特征值。
根据Hoerl&Kennard方程4.2-4.5,风险(按照预期的误差范数表示)为β∗^kβY=Xβ+ϵλ1,…,λpXTX
L2
E([β∗^−β]T[β∗^−β])=σ2∑j=1pλj/(λj+k)2+k2βT(XTX+kIp)−2β=γ1(k)+γ2(k)=R(k)
据我所知, 他们指出可以解释的内积的方差,而是偏差的内积。
(XTX+kIp)−2=(XTX+kIp)−1(XTX+kIp)−1.γ1β∗^−βγ2
假设,则
令
是风险w / r / t的导。由于 ,我们得出结论,存在某个使得。XTX=Ip
R(k)=pσ2+k2βTβ(1+k)2.
R′(k)=2k(1+k)βTβ−(pσ2+k2βTβ)(1+k)3
klimk→0+R′(k)=−2pσ2<0k∗>0R(k∗)<R(0)
作者指出,就处的风险而言,正交性是最好的,并且随着条件数的增加,方法。k=0XTXlimk→0+R′(k)−∞
评论
这里似乎存在一个悖论,即如果且为常数,那么我们只是在估计正态变量序列的均值,并且我们知道香草的无偏估计在这种情况下是可以接受的。通过注意到上述推理仅提供了针对固定存在最小值的方法,可以解决此问题。但是对于任何,我们都可以通过增大来使风险激增,因此仅此论点并不能说明是否适用于岭估计。p=1X(β,σ2)kβTβkβTβ
为什么通常仅在相关预测变量的情况下建议使用岭回归?
H&K的风险推导表明,如果我们认为小,并且如果设计几乎是奇异的,那么我们可以实现估计风险的大幅度降低。我认为不普遍使用岭回归,因为OLS估计是安全的默认值,并且不变性和无偏性很有吸引力。当它失败时,它确实会失败-您的协方差矩阵会爆炸。也许还有一个哲学/推论点,即如果您的设计几乎是单一的,并且您具有观测数据,则可以将解释为在单位变化中给出的变化是可疑的-大协方差矩阵是的症状。 βTβXTXβEYX
但是,如果您的目标仅是预测,则推论关注不再成立,并且您强烈赞成使用某种收缩估计量。