LASSO自由度的直觉


12

邹等。“关于套索的“自由度””(2007年)表明,非零系数的数量是对套索的自由度的无偏且一致的估计。

对我来说似乎有点违反直觉。

  • 假设我们有一个回归模型(变量为零均值)

y=βx+ε.
  • 假设的无限制OLS估计值为\ hat \ beta_ {OLS} = 0.5。对于非常低的惩罚强度,它可能与LASSO估计值\ beta大致吻合。ββ^OLS=0.5β
  • 进一步假设特定惩罚强度\ lambda ^ *的LASSO估计λ值为β^LASSO,λ=0.4。例如,对于使用交叉验证发现的现有数据集,λ可能是“最优” λ
  • 如果我理解正确,则在两种情况下自由度均为1,因为两次均存在一个非零回归系数。

题:

  • 即使β^LASSO,λ=0.4表示拟合的“自由度”比\ hat \ beta_ {OLS} = 0.5小,两种情况下的自由度又如何相同β^OLS=0.5

参考文献:


1
很好的问题,那将值得更多关注!
Matifou

Answers:


8

假设我们得到了一组维观测值,,。假定采用以下形式的模型: 其中,和表示内积。令是使用拟合方法(出于我们的目的,可以使用OLS或LASSO估算。该文章(方程式1.2)给出的自由度公式为: n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

通过检查此公式,我们可以推断出,根据您的直觉,LASSO 的真实自由度确实小于OLS 的真实自由度;LASSO影响的系数收缩应趋于减小协方差。

现在,要回答您的问题,LASSO的DOF与示例中的OLS的DOF相同的原因是,您正在处理从模型采样的特定数据集获得的估计值(尽管是无偏的)。 ,是真实的DOF值。对于任何特定的数据集,这样的估计值将不等于真实值(特别是因为估计值必须是整数,而真实值通常是实数)。

但是,如果将这样的估计值从模型采样的许多数据集中取平均值,则根据无偏和大数定律,这样的平均值将收敛到真实的自由度。在LASSO的情况下,其中一些数据集将导致估计器,其中系数实际上为0(尽管小时,此类数据集可能很少见)。在OLS的情况下,DOF的估计总是系数的数量,不是非零系数的数目,因此平均为OLS情况下,将不包含这些零。这显示了估算器之间的差异,以及LASSO DOF的平均估算器如何收敛到比OLS DOF的平均估算器小的值。λ


1
感谢您纠正我的错误和不精确的表述。让我看看我是否了解您。本质上,如果我们要重复多次实验(或从同一总体中多次采样),我们偶尔会得到(系数将一直缩小到零),并且平均而言(在整个实验中)我将获得LASSO DoF,而OLS DoF (显然)。β^LASSO=0<1=1
理查德·哈迪

顺便说一句,为什么自由度的估计需要是整数?真的吗?我还要指出,内积符号看起来不必要地复杂,并且在该站点上很少使用。矩阵表示法就足够了。当然,这是您的选择。
理查德·哈迪

1
是的,关于它的总结。对于LASSO,自由度的估计值必须是整数(至少对于单个数据集而言),因为该估计值是非零系数的数量。
e2crawfo

1
对于LASSO,陈述的估计自由度必须是整数,因为对我而言,该估计是非零系数的数量似乎是高度重复的。通常,根据您所编写的df的定义,我认为df不必为整数。类似地,在脊的情况下,它不必为零。
Matifou
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.