Answers:
由于您要寻求见识,因此我将采用一种相当直观的方法,而不是更加数学的方法:
遵循我在此处的答案中的概念,我们可以通过添加(在您的公式中)观察值来将岭回归公式化为具有虚拟数据的回归值,其中,和表示。如果您为此扩展数据集写出新的RSS,则会看到其他观察结果,每个观察结果都添加了,因此新的RSS是原始的并且在此新的扩展数据集上最小化RSS与最小化岭回归标准相同。
那么我们在这里能看到什么呢?随着增加,每个额外的行都有一个增加的分量,因此这些点的影响也随之增加。他们将装配好的超平面拉向自己。然后,随着和的相应分量变为无穷大,所有涉及的系数“展平”为。
也就是说,由于,惩罚将主导最小化,因此 s将为零。如果截距没有受到惩罚(通常情况),那么模型将朝着响应的平均值逐渐缩小。
我将直观地理解为什么我们首先要讨论山脊(这也表明了为什么需要山脊),然后再讨论一些历史。第一个改编自我在这里的答案:
如果存在多重共线性,则会在似然函数中得到一个“山脊”(似然性是的函数)。反过来,这会在RSS中产生一个长“谷”(因为RSS =)。
Ridge回归“修复”了ridge-它增加了一个惩罚,将ridge变成了似然空间中的一个漂亮的峰,相当于我们最小化的条件中的一个漂亮的下陷:
[ 清晰的图像 ]
名称后面的实际故事要复杂一些。1959年,AE Hoerl [1]引入了用于响应面方法的岭分析,不久[2]就适应了回归中的多重共线性问题(“岭回归”)。例如,参见RW Hoerl在[3]中的讨论,其中描述了Hoerl(AE而不是RW)使用响应面的等高线图*来确定去哪里寻找局部最优值(其中一个“朝向”)。岭')。在病态问题中,会出现非常长的山脊问题,并且将山脊分析的见解和方法应用于具有回归可能性/ RSS的相关问题,从而产生山脊回归。
*可以在此处看到响应表面轮廓图的示例(在二次响应的情况下)(图3.9-3.12)。
也就是说,“岭”实际上是指我们尝试优化的函数的特征,而不是在矩阵中添加“岭”(+ ve对角线)(因此,虽然岭回归确实会增加对角线,这就是为什么我们称其为“岭”回归)。
有关需要岭回归的其他信息,请参见上面列表项2下的第一个链接。
参考文献:
[1]:霍尔,AE(1959)。许多变量方程的最佳解。化学工程进展, 55(11)69-78。
[2]:霍尔,AE(1962)。岭分析在回归问题中的应用。化学工程进展, 58(3)54-59。
[3] Hoerl,RW(1985)。25年后的Ridge分析。 美国统计学家,39(3),186-192
(更新:请参阅Glen_b的答案。这不是正确的历史原因!)
当预测变量相关时,岭回归非常有用。在这种情况下,OLS可以给出系数很大的结果,但是如果对它们进行惩罚,我们可以获得更合理的结果。总的来说,脊回归的一大优势是解决方案始终存在,如上所述。这甚至适用于的情况,而OLS无法为其提供(唯一的)解决方案。
将正常先验放在向量上时,也会发生Ridge回归。
这是贝叶斯对岭回归的假设:假设的先验值为。然后因为 [假设],我们有 β 〜Ñ (0 ,σ 2(Ý|X,β)〜Ñ(Xβ,σ
让我们找到后验模式(我们也可以看后验均值或其他东西,但是为此我们看一下模式,即最可能的值)。这意味着我们想要 等效于
应该看起来很熟悉。
因此,我们看到,如果我们在向量上放置均值0和方差的正态先验,则使后验最大化的值就是岭估计。请注意,这将更视为一个常客参数,因为之前没有,但是未知,所以这并不是完全的贝叶斯方法。
编辑:您询问的情况。我们知道中的超平面由恰好个点定义。如果我们正在运行线性回归并且那么我们将精确地插值数据并获得。这是一个解决方案,但却是一个可怕的解决方案:我们在未来数据上的表现极有可能是糟糕的。现在假设:不再有由这些点定义的唯一超平面。我们可以拟合多个超平面,每个超平面的残差平方和为0。
一个非常简单的示例:假设。然后,我们将获得这两点之间的界线。现在假设但。想象一下其中包含这两个点的飞机。我们可以旋转该平面而无需更改其中包含这两个点的事实,因此有无数个模型都具有我们目标函数的理想值,因此,即使超出了过度拟合的范围,也不清楚选择哪个模型。
作为最后的评论(按照@gung的建议),LASSO(使用罚分)通常用于高维问题,因为它会自动执行变量选择(设置一些)。足够令人高兴的是,事实证明当在向量上使用双指数(也称为Laplace)时,LASSO等于找到后验模式。LASSO也有一些局限性,例如饱和在预测变量上,而不必以理想的方式处理相关预测变量组,因此可能需要承担弹性网(和罚分的凸组合)。