为什么glmnet使用Zou&Hastie原始论文中的“幼稚”弹性网?


27

L=1nyXβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

但是,随后的glmnet论文Friedman,Hastie,&Tibshirani(2010)通过坐标下降的广义线性模型的正则化路径没有使用这种重新缩放,只是有一个简短的脚注说

Zou和Hastie(2005)将此惩罚称为幼稚的弹性网,并且更喜欢重新缩放的版本,他们称之为弹性网。我们在这里放弃这种区别。

那里(或在Hastie等人的任何教科书中)没有给出进一步的解释。我觉得有些困惑。难道作者离开了重新调节,因为他们认为这是过于特设?因为它在一些进一步的实验中表现更差?因为不清楚如何将其归纳为GLM案例?我不知道。但是无论如何,此glmnet软件包从那时起变得非常受欢迎,所以我的印象是,如今没有人使用Zou&Hastie的重新缩放,并且大多数人甚至都没有意识到这种可能性。

问题:毕竟,这是一个好主意还是一个坏主意?

使用glmnet参数化后,Zou&Hastie重缩放比例应为

β^=(1+λ(1α))β^.

1
由于在概览文件中,目标是适合整个正则化路径,所以可能的想法是重新缩放只是路径的单调变换?
马修·德鲁里

1
@MatthewDrury是的,但是如果Friedman等人仍然如此。相信重新缩放是个好主意,他们不会将它遗忘在纸上,尤其是在glmnet代码之外。它甚至没有作为可选功能提供(它们在2005年论文中随附的早期代码当然支持缩放)。
变形虫说恢复莫妮卡

4
不幸的是,公共的glmnet代码是完全不可读的……
马修·德鲁里

Answers:


25

我将此问题通过电子邮件发送给了Zou和Hastie,并收到了Hastie的以下答复(我希望他不在乎我在这里引用它):

我认为在Zou等人中,我们担心会出现额外的偏差,但当然,重新缩放会增加差异。因此,它只是沿着偏差方差折衷曲线移动一个。我们很快将提供一个宽松的套索版本,这是一种更好的缩放比例。

我将这些词解释为对香草弹性网解决方案的某种 “重新缩放” 的认可,但是Hastie似乎不再支持Zou&Hastie 2005中提出的特定方法。


在下文中,我将简要回顾并比较几个重新缩放选项。

我将使用glmnet损耗的参数化其解决方案表示为。

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. Zou&Hastie的方法是使用请注意,当,这会对纯脊产生一些不平凡的重新缩放,这可能毫无意义。另一方面,当时,这不会对纯套索产生任何重新缩放,尽管文献中有各种说法认为套索估计器可能会受益于某些重新缩放(请参阅下文)。

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. 对于纯套索,Tibshirani建议使用套索-OLS混合,即使用由套索选择的预测子集使用OLS估计器。这使估计量保持一致(但不会缩小,这会增加预期的误差)。弹性网可以使用相同的方法,但是潜在的问题是弹性网可以选择超过预测变量,OLS将崩溃(相比之下,纯套索绝不会选择预测变量以上)。

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. 上面引用的Hastie电子邮件中提到的宽松套索是对在第一个套索选择的预测子集上运行另一个套索的建议。这个想法是使用两种不同的惩罚,并通过交叉验证选择两者。可以将相同的思想应用于弹性网,但这似乎需要四个不同的正则化参数,对其进行调整是一场噩梦。

    我建议使用一种更简单的松弛弹性网方案:在获得,对选定的预测变量子集使用和相同的进行岭回归:(a)不需要任何其他正则化参数,(b)可用于任意数量的所选预测变量,并且(c)如果一个以纯岭开头,则不执行任何操作。听起来不错。β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

我目前正在使用和的小型数据集,其中被的少数领先PC很好地预测了。我将使用100倍重复11倍交叉验证比较上述估算器的性能。作为性能指标,我正在使用测试错误,并对其进行归一化以产生类似R平方的结果:在下图中,虚线对应于香草弹性净估计量,三个子图对应于三种缩放方法:npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

在此处输入图片说明

因此,至少在这些数据中,所有这三种方法的性能均优于香草弹性网估算器,并且“松弛弹性网”的效果最佳。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.