如何在岭回归中找到回归系数?


14

在岭回归中,要最小化的目标函数为:

RSS+λβj2.

可以使用拉格朗日乘数法对此进行优化吗?还是直接的差异化?


1
标题(重点是)和问题(似乎只涉及)之间有什么联系?我担心“优化”可能会有截然不同的解释,这取决于哪些变量被认为是可以改变的以及哪些变量将被固定。β Ĵλβj
ub

1
谢谢修改了问题。我已阅读了是通过交叉验证发现-但我相信,这意味着你有已经并使用不同的数据,以找到最好的的问题是-你是怎么找到的在是未知数时排名第一?β Ĵ λ β Ĵ λλβjλβjλ
米纳吉

Answers:


22

脊问题有两种表达方式。第一个是

βR=argminβ(yXβ)(yXβ)

服从

jβj2s.

该公式显示了回归系数的大小约束。注意该约束意味着什么;我们迫使系数位于半径为的原点周围的球中。s

第二种说法正是您的问题

βR=argminβ(yXβ)(yXβ)+λβj2

可以看作是拉格朗日乘数公式。请注意,此处是调整参数,并且其较大的值将导致较大的收缩。您可以继续针对区分表达式,并获得知名的ridge估计器βλβ

(1)βR=(XX+λI)1Xy

这两个公式完全等效,因为和之间存在一一对应的关系。λsλ

让我详细说明一下。假设您处于理想的正交情况下,。这是一个高度简化且不现实的情况,但是我们可以更仔细地研究估算器,所以请多多包涵。考虑方程(1)发生了什么。岭估计器减少到XX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

就像在正交情况下,OLS估计量由。现在来看这个组件βOLS=Xy

(2)βR=βOLS1+λ

请注意,现在所有系数的收缩率都是恒定的。这在一般情况下可能不成立,并且确实可以证明,如果矩阵中存在简并性,收缩率将有很大的不同。XX

但是,让我们回到约束优化问题上。根据KKT理论,最优性的必要条件是

λ(βR,j2s)=0

因此或(在这种情况下,我们说约束是绑定的)。如果则没有惩罚,我们回到常规的OLS情况。假设约束是有约束力的,而我们处于第二种情况。使用(2)中的公式,我们得到Σ β 2 - [R Ĵ - 小号= 0 λ = 0λ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

我们从那里获得

λ=βOLS,j2s1

先前声称的一对一关系。我希望在非正交情况下很难确定这一点,但结果不管如何。

再次查看(2),您会发现我们仍然缺少。为了获得最佳值,您可以使用交叉验证或查看山脊迹线。后一种方法涉及在(0,1)中构造一个序列,并查看估计值如何变化。然后,选择使它们稳定的。顺便提一下,此方法在下面的第二篇参考文献中提出,并且是最古老的方法。λ λλλλ

参考文献

Hoerl,Arthur E.和Robert W. Kennard。“ Ridge回归:对非正交问题的偏倚估计”。Technometrics 12.1(1970):55-67。

Hoerl,Arthur E.和Robert W. Kennard。“ Ridge回归:在非正交问题上的应用。” Technometrics 12.1(1970):69-82。


2
@Minaj Ridge回归对于所有系数(截距除外)具有恒定的收缩率。这就是为什么只有一个乘数的原因。
JohnK '16

2
@amoeba这是Hoerl和Kennard的建议,他们是在1970年代引入岭回归的。根据他们的经验(以及我的经验),即使存在多重共线性的极端程度,系数也将稳定在该区间内。当然,这是一种经验策略,因此不能保证它始终有效。
JohnK

2
您也可以执行伪观测方法,并获得估计值,而没有什么比直接最小二乘回归程序更复杂了。您还可以研究以类似方式更改的效果。λ
Glen_b-恢复莫妮卡

2
@amoeba的确ridge并非尺度不变的,这就是为什么通常的做法是事先对数据进行标准化。如果您想看看,我已经提供了相关的参考资料。它们非常有趣,而且技术性不强。
JohnK

2
@JohnK实际上是岭回归将每个缩小不同的量,因此即使只有一个收缩参数,该收缩也不是恒定的。λβλ
Frank Harrell

4

我的《回归建模策略》一书深入探讨了使用有效AIC选择。这来自惩罚的对数似然和有效自由度,后者是惩罚减少方差的函数。有关此的演示在这里。R 软件包找到了,它可以优化有效的AIC,并且还允许使用多个惩罚参数(例如,一个用于线性主效应,一个用于非线性主效应,一个用于线性相互作用效应以及一个用于非线性相互作用效应)。β λλβ^rmspentraceλ


1
+1。您如何选择通过显式公式(即不实际执行CV)计算的留一法CV错误来选择呢?您对它在实践中与“有效AIC”相比有什么想法?λ
变形虫说莫妮卡(Monica)恢复

我还没研究过 LOOCV需要大量计算。
Frank Harrell


1
该公式适用于OLS的特殊情况,而不适用于一般情况下的最大可能性。但是有一个使用得分残差的近似公式。我的确知道在此讨论中我们主要是在谈论OLS。
Frank Harrell

1

我不是分析性地,而是数字地。我通常这样绘制RMSE与λ:

在此处输入图片说明

图1. RMSE和常数λ或alpha。


这是否意味着您确定了一定的值,然后对表达式求微分以找到,然后您就可以计算出RMSE并针对新的值再次执行该过程?β Ĵ λλβjλ
米纳吉
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.