Answers:
直观地讲,组套索可能比套索更可取,因为它为我们提供了一种手段,可以将(某种类型的)附加信息纳入我们对真实系数估计中。在极端情况下,请考虑以下因素:
使用,将作为的支持。考虑“ oracle”估计量这是具有两个组的套索-真正的支持者和一补。令是使的的最小值。由于组套索罚分的性质,我们知道从移至(对于一些小
实际上,我们并没有很好地选择组。但是,尽管这些组比上面的极端情况要好,但它们仍将为我们提供帮助:仍然可以在一组真实协变量和一组虚协变量之间进行选择。我们仍在借力。
这在这里正式化。他们表明,在某些情况下,组套索的预测误差的上限低于普通套索的预测误差的下限。也就是说,他们证明了分组使我们的估计更好。
对于您的第二个问题:(普通)套索罚分是分段线性的,这引起了分段线性解的路径。直观地,在组套索的情况下,惩罚不再是分段线性的,因此我们不再具有此属性。对解决路径分段线性度的重要参考是在这里。参见其命题1。令和。他们表明,当且仅当,组套索的求解路径才是线性的是分段常量。当然,这不是因为我们的罚分具有整体曲率。
本的答案是最普遍的结果。但是,对OP的直观答案是由分类预测变量的情况引起的,这些分类预测变量通常被编码为多个虚拟变量:每个类别一个。在许多分析中,将这些虚拟变量(代表一个分类预测变量)一起考虑而不是分开考虑是有意义的。
如果您有一个分类变量,例如有五个级别,则直套索可能会留下两个进出三个。您如何原则性地处理此问题?决定投票?从字面上看,使用虚拟变量而不是更有意义的类别?您的虚拟编码如何影响您的选择?
正如他们在用于逻辑回归的The group lasso的介绍中所说,它提到:
对于线性回归的特殊情况,当不仅存在连续变量而且存在分类预测变量(因子)时,套索解决方案也不令人满意,因为它只选择单个虚拟变量而不是整个因子。此外,套索解决方案取决于伪变量的编码方式。一般而言,为分类预测器选择不同的对比将产生不同的解决方案。
正如Ben所指出的那样,预测变量之间还有更多细微的联系,这可能表明它们应该一起出现或一起出现。但是类别变量是组套索的发布者子代。