这个问题可能是愚蠢的,但我注意到拉索回归有两种不同的表达方式。我们知道套索问题是最小化由平方损失加 -1惩罚项组成的目标,表示为:
但是通常我看到套索估计量可以写成
我的问题是,等价的吗?\ frac {1} {2n}一词从何而来?这两种说法之间的联系对我而言并不明显。
[更新]我想我应该问的另一个问题是,
为什么会有第二种说法?从理论上或计算上,以这种方式提出问题有什么好处?
这个问题可能是愚蠢的,但我注意到拉索回归有两种不同的表达方式。我们知道套索问题是最小化由平方损失加 -1惩罚项组成的目标,表示为:
但是通常我看到套索估计量可以写成
我的问题是,等价的吗?\ frac {1} {2n}一词从何而来?这两种说法之间的联系对我而言并不明显。
[更新]我想我应该问的另一个问题是,
为什么会有第二种说法?从理论上或计算上,以这种方式提出问题有什么好处?
Answers:
它们的确等效,因为您可以随时调整(另请参见@whuber的注释)。从理论上讲,这是一个方便的问题,但据我所知这是没有必要的。从计算角度来看,我实际上发现非常烦人,因此如果我要设计使用正则化的算法,通常会使用第一个公式。
有点背景知识:当我第一次开始学习惩罚方法时,我在工作中到处都带着感到烦恼,所以我宁愿忽略它-甚至简化了我的一些计算。当时我的工作主要是计算。最近,我一直在进行理论研究,发现必不可少的(甚至与)。
更多详细信息:当您尝试分析Lasso作为样本大小函数的行为时,您经常需要处理iid随机变量的总和,实际上,在通过归一化后,通常更方便地分析这些总和。 -考虑大数定律/中心极限定理(或者如果您想看中,度量的集中和经验过程理论)。如果损失之前没有项,那么最终会在分析结束时最终重新缩放某些内容,因此从那里开始通常会更好。在是方便,因为它取消了一些恼人的因素 在分析中(例如,当您采用平方损失项的导数时)。
另一种思考的方式是,在进行理论研究时,我们通常对随着增大而引起的解的行为感兴趣-也就是说,不是固定数量。实际上,当我们在某个固定数据集上运行套索时,从算法/计算的角度来看,确实是固定的。因此,将额外的归一化因子放在首位并不是全部有用。
这些看起来很烦人,但在花了足够的时间处理这些不平等之后,我学会了爱。