为什么使用组套索而不是套索?


13

我已经读过,套索组用于一组变量中的变量选择和稀疏性。我想知道这一主张背后的直觉。

  • 为什么套索优先于套索?
  • 为什么组套索求解路径不是分段线性的?

1
从Yuan和Lin(2006)的理解中,套索是为选择单个变量而不是因子选择而设计的。因此套索解决了ANOVA问题,其目标是选择重要的主效应和相互作用以进行准确的预测,这相当于选择变量组。另一个例子是具有多项式的加法模型,其中每个分量都表示为原始测量变量的基函数的线性组合
仇杀队(Vendetta)

Answers:


11

直观地讲,组套索可能比套索更可取,因为它为我们提供了一种手段,可以将(某种类型的)附加信息纳入我们对真实系数估计中。在极端情况下,请考虑以下因素:β

使用,将作为的支持。考虑“ oracle”估计量这是具有两个组的套索-真正的支持者和一补。令是使的的最小值。由于组套索罚分的性质,我们知道从移至(对于一些小yN(Xβ,σ2I)S={j:βj0}β

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵϵ>0),则只有一组会支持,这通常被认为是的估计。由于进行分组,因此很有可能选择的组为,我们会做得很完美。β^SS

实际上,我们并没有很好地选择组。但是,尽管这些组比上面的极端情况要好,但它们仍将为我们提供帮助:仍然可以在一组真实协变量和一组虚协变量之间进行选择。我们仍在借力。

在这里正式化。他们表明,在某些情况下,组套索的预测误差的上限低于普通套索的预测误差的下限。也就是说,他们证明了分组使我们的估计更好。

对于您的第二个问题:(普通)套索罚分是分段线性的,这引起了分段线性解的路径。直观地,在组套索的情况下,惩罚不再是分段线性的,因此我们不再具有此属性。对解决路径分段线性度的重要参考是在这里。参见其命题1。令和。他们表明,当且仅当,组套索的求解路径才是线性的是分段常量。当然,这不是因为我们的罚分具有整体曲率。L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J

2
现在这很有意义。非常感谢您的回答。
仇杀队

4

本的答案是最普遍的结果。但是,对OP的直观答案是由分类预测变量的情况引起的,这些分类预测变量通常被编码为多个虚拟变量:每个类别一个。在许多分析中,将这些虚拟变量(代表一个分类预测变量)一起考虑而不是分开考虑是有意义的。

如果您有一个分类变量,例如有五个级别,则直套索可能会留下两个进出三个。您如何原则性地处理此问题?决定投票?从字面上看,使用虚拟变量而不是更有意义的类别?您的虚拟编码如何影响您的选择?

正如他们在用于逻辑回归The group lasso的介绍中所说,它提到:

对于线性回归的特殊情况,当不仅存在连续变量而且存在分类预测变量(因子)时,套索解决方案也不令人满意,因为它只选择单个虚拟变量而不是整个因子。此外,套索解决方案取决于伪变量的编码方式。一般而言,为分类预测器选择不同的对比将产生不同的解决方案。

正如Ben所指出的那样,预测变量之间还有更多细微的联系,这可能表明它们应该一起出现或一起出现。但是类别变量是组套索的发布者子代。


@Ben:嗯...我真的听不懂OP的第一条评论,看来这是对现在已删除评论的回应?这个问题本身及其标题-大多数观众都会读到-似乎是一个普遍的问题。如果问题和标题更改为“除分类变量以外,还有哪些非显而易见的应用程序可以对套索进行分组?”,我肯定会删除答案。
韦恩

好的。我喜欢您关于在因子上使用(普通)套索如何使估计值取决于因子编码的观点!我以前只是认为该组的套索作为给我们一种“测量稀疏”,而不是“参数稀疏”(即我们应该衡量因素或不- 。各级要选择或无)
user795305
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.