Answers:
让我们以我们所知道的为基础,那就是每当模型矩阵为,响应 -vector为,参数 -vector为,即目标函数
求解法线方程时,(残差平方和)最小化
Ridge回归在目标函数中添加了另一个术语(通常是在将所有变量标准化以使其处于共同基础之后),要求最小化
对于一些非负常量。它是残差的平方和加上系数本身的平方和的倍数(很明显,它具有全局最小值)。因为,它具有正平方根。
考虑矩阵行增加了对应于乘以单位矩阵:
当向量相似地以的结尾扩展为零时,目标函数中的矩阵乘积将添加附加项,其形式为达到最初的目标。因此
从左手表达式的形式可以立即看出法线方程是
因为我们在的末尾附加了零,所以右侧与。在左手侧被添加到原始。因此,新的Normal方程简化为
除了从概念上讲是经济的(不需要任何新操作即可得出此结果),它在计算上也很经济:您用于做普通最小二乘法的软件也可以进行岭回归,而无需进行任何更改。 (不过,在较大的问题中使用为此目的而设计的软件可能会有所帮助,因为它会利用的特殊结构以的密集间隔有效地获取结果,使您能够探索答案的变化方式。用。)
这种看待事物的方式的另一个优点是它如何帮助我们理解岭回归。当我们想真正地了解回归时,几乎总是可以从几何角度考虑回归:的列构成维度为的实向量空间中的向量。通过将附加到,从而将它们从向量延长到向量,我们通过包含将嵌入到更大的空间 “虚的”,相互正交的方向。的第一列给出了一个大小为虚构小分量,从而将其加长并将其移出原始列生成的空间。第二个,第三个,...,列同样加长,以相同的量移动的原始空间了 - 但都在不同的新方向。 因此,原始列中存在的任何共线性将立即得到解决。此外,越大,这些新向量越接近单个虚构的方向:它们变得越来越正交。因此,当从增加时,正规方程的解将立即变为可能,并且将迅速变得数值稳定。
该过程的描述提出了一些新颖和创造性的方法来解决Ridge回归旨在解决的问题。例如,使用任何手段(例如Belsley,Kuh和Welsch在其1980年的《回归诊断》一书的第3章中描述的方差分解),您都可以识别的几乎共线列的子组,其中每个子组几乎与其他正交。您只需要与最大组中的元素邻接,就可以将与行相邻(对为零),并指定一个新的“虚构”维来将组中的每个元素从其同级中移开:您不需要虚构尺寸来做到这一点。
最近,我在P样条曲线的情况下偶然发现了一个相同的问题,并且由于概念相同,因此我想对脊估计的推导给出更详细的答案。
我们从一个惩罚标准函数开始,该函数与经典OLS标准函数的区别在于最后一个求和项中的惩罚项:
哪里
我们可以用矩阵符号重写该标准,然后进一步分解:
其中为单位矩阵
现在,我们搜索以最小化我们的标准。除其他我们利用矩阵分化规则的,我们可以在此处应用为:
给出的答案中缺少一些重要的东西。
的解决方案是从一阶必要条件得出的:得出。但这足够了吗?也就是说,仅当严格凸时,解决方案才是全局最小值。这可以证明是正确的。
解决问题的另一种方法是查看与限制为。OLS代表普通最小二乘。从这个角度来看,只是拉格朗日函数,用于查找受凸函数约束的凸目标函数的全局最小值。
在这些精美的讲义中可以找到关于这些观点和派生的一个很好的解释:http : //math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf