1
为什么glmnet使用Zou&Hastie原始论文中的“幼稚”弹性网?
L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. 但是,随后的glmnet论文Friedman,Hastie,&Tibshirani(2010)通过坐标下降的广义线性模型的正则化路径没有使用这种重新缩放,只是有一个简短的脚注说 Zou和Hastie(2005)将此惩罚称为幼稚的弹性网,并且更喜欢重新缩放的版本,他们称之为弹性网。我们在这里放弃这种区别。 那里(或在Hastie等人的任何教科书中)没有给出进一步的解释。我觉得有些困惑。难道作者离开了重新调节,因为他们认为这是过于特设?因为它在一些进一步的实验中表现更差?因为不清楚如何将其归纳为GLM案例?我不知道。但是无论如何,此glmnet软件包从那时起变得非常受欢迎,所以我的印象是,如今没有人使用Zou&Hastie的重新缩放,并且大多数人甚至都没有意识到这种可能性。 问题:毕竟,这是一个好主意还是一个坏主意? 使用glmnet参数化后,Zou&Hastie重缩放比例应为β^∗=(1+λ(1−α))β^.β^∗=(1+λ(1−α))β^.\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.