为什么将岭回归称为“岭”,为什么需要它,当达到无穷大时会发生什么?


71

岭回归系数估计是使β^R

RSS+λj=1pβj2.

我的问题是:

  1. 如果,那么我们看到上面的表达式简化为通常的RSS。如果怎么办?我不理解教科书中有关系数行为的解释。λ=0λ

  2. 为了帮助理解特定术语背后的概念,为什么将该术语称为RIDGE回归?(为什么要使用ridge?)通常/常见回归可能有什么问题,需要引入一个称为ridge回归的新概念?

您的见解会很棒。

Answers:


89

由于您要寻求见识,因此我将采用一种相当直观的方法,而不是更加数学的方法:

  1. 遵循我在此处的答案中的概念,我们可以通过添加(在您的公式中)观察值来将岭回归公式化为具有虚拟数据的回归值,其中,和表示。如果您为此扩展数据集写出新的RSS,则会看到其他观察结果,每个观察结果都添加了,因此新的RSS是原始的并且在此新的扩展数据集上最小化RSS与最小化岭回归标准相同。pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    那么我们在这里能看到什么呢?随着增加,每个额外的行都有一个增加的分量,因此这些点的影响也随之增加。他们将装配好的超平面拉向自己。然后,随着和的相应分量变为无穷大,所有涉及的系数“展平”为。λxλx0

    也就是说,由于,惩罚将主导最小化,因此 s将为零。如果截距没有受到惩罚(通常情况),那么模型将朝着响应的平均值逐渐缩小。λβ

  2. 我将直观地理解为什么我们首先要讨论山脊(这也表明了为什么需要山脊),然后再讨论一些历史。第一个改编自我在这里的答案:

    如果存在多重共线性,则会在似然函数中得到一个“山脊”(似然性是的函数)。反过来,这会在RSS中产生一个长“谷”(因为RSS =)。β2logL

    Ridge回归“修复”了ridge-它增加了一个惩罚,将ridge变成了似然空间中的一个漂亮的峰,相当于我们最小化的条件中的一个漂亮的下陷:

    LS中的峰变为峰回归中的峰
    [ 清晰的图像 ]

    名称后面的实际故事要复杂一些。1959年,AE Hoerl [1]引入了用于响应面方法的岭分析,不久[2]就适应了回归中的多重共线性问题(“岭回归”)。例如,参见RW Hoerl在[3]中的讨论,其中描述了Hoerl(AE而不是RW)使用响应面的等高线图*来确定去哪里寻找局部最优值(其中一个“朝向”)。岭')。在病态问题中,会出现非常长的山脊问题,并且将山脊分析的见解和方法应用于具有回归可能性/ RSS的相关问题,从而产生山脊回归。

*可以在此处看到响应表面轮廓图的示例(在二次响应的情况下)(图3.9-3.12)。

也就是说,“岭”实际上是指我们尝试优化的函数的特征,而不是在矩阵中添加“岭”(+ ve对角线)(因此,虽然岭回归确实会增加对角线,这就是为什么我们称其为“岭”回归)。XTX

有关需要岭回归的其他信息,请参见上面列表项2下的第一个链接。


参考文献:

[1]:霍尔,AE(1959)。许多变量方程的最佳解。化学工程进展55(11)69-78。

[2]:霍尔,AE(1962)。岭分析在回归问题中的应用。化学工程进展58(3)54-59。

[3] Hoerl,RW(1985)。25年后的Ridge分析。 美国统计学家39(3),186-192


2
这非常有帮助。是的,当我寻求见识时,我正在寻找直觉。当然,数学很重要,但是我也在寻找概念上的解释,因为当数学超出了我的范围时,其中有一些部分。再次感谢。
cgo 2015年

为什么在项目要点1中有“加权”一词?
amoeba

1
这是一个好问题;除非对原始回归进行加权,否则无需对其进行加权。我已删除形容词。它可以把它写成一个加权回归(其中,如果你已经做加权回归可能是非常轻微更容易处理)。
Glen_b

36
  1. 如果那么除以外的任何我们的惩罚项将是无限的,因此这就是我们得到的惩罚项。没有其他向量可以给我们目标函数的有限值。β β = 0λββ=0

(更新:请参阅Glen_b的答案。这不是正确的历史原因!)

  1. 这来自于岭回归的矩阵表示法。结果是 该长期增加了一个“脊”的主对角线,并保证所产生的基质是可逆的。这意味着,与OLS不同,我们将始终获得解决方案。λ
    β^=(XTX+λI)1XTY.
    λI

当预测变量相关时,岭回归非常有用。在这种情况下,OLS可以给出系数很大的结果,但是如果对它们进行惩罚,我们可以获得更合理的结果。总的来说,脊回归的一大优势是解决方案始终存在,如上所述。这甚至适用于的情况,而OLS无法为其提供(唯一的)解决方案。n<p

将正常先验放在向量上时,也会发生Ridge回归。β

这是贝叶斯对岭回归的假设:假设的先验值为。然后因为 [假设],我们有 β Ñ 0 σ 2βÝ|XβÑXβσβN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

让我们找到后验模式(我们也可以看后验均值或其他东西,但是为此我们看一下模式,即最可能的值)。这意味着我们想要 等效于

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
因为严格是单调的,而这又等效于 log
minβRp||yXβ||2+λβTβ

应该看起来很熟悉。

因此,我们看到,如果我们在向量上放置均值0和方差的正态先验,则使后验最大化的值就是岭估计。请注意,这将更视为一个常客参数,因为之前没有,但是未知,所以这并不是完全的贝叶斯方法。σ2λββσ2

编辑:您询问的情况。我们知道中的超平面由恰好个点定义。如果我们正在运行线性回归并且那么我们将精确地插值数据并获得。这是一个解决方案,但却是一个可怕的解决方案:我们在未来数据上的表现极有可能是糟糕的。现在假设:不再有由这些点定义的唯一超平面。我们可以拟合多个超平面,每个超平面的残差平方和为0。n<pRppn=p||yXβ^||2=0n<p

一个非常简单的示例:假设。然后,我们将获得这两点之间的界线。现在假设但。想象一下其中包含这两个点的飞机。我们可以旋转该平面而无需更改其中包含这两个点的事实,因此有无数个模型都具有我们目标函数的理想值,因此,即使超出了过度拟合的范围,也不清楚选择哪个模型。n=p=2n=2p=3

作为最后的评论(按照@gung的建议),LASSO(使用罚分)通常用于高维问题,因为它会自动执行变量选择(设置一些)。足够令人高兴的是,事实证明当在向量上使用双指数(也称为Laplace)时,LASSO等于找到后验模式。LASSO也有一些局限性,例如饱和在预测变量上,而不必以理想的方式处理相关预测变量组,因此可能需要承担弹性网(和罚分的凸组合)。L1βj=0βnL1L2


1
(+1)通过阐述贝叶斯和岭回归之间的联系可以改善您的答案。
Sycorax 2015年

1
会做的-现在输入。
2015年

4
当时,OLS找不到唯一的解决方案,因为设计矩阵不是完整等级。这是一个非常普遍的问题。请在档案中搜索为什么此方法不起作用的描述。n<p
Sycorax 2015年

2
@cgo:user777的搜索解释和建议是一个很好的解释,但是为了完整起见,我还添加了(希望)直观的解释。
2015年

5
+1,不错的答案。关于n <p,您可能会提到在这种情况下通常使用LASSO,并且它与RR密切相关。
gung
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.