让我们考虑一个非常简单的模型:,在上使用L1罚分,在上使用最小二乘损失函数。我们可以将表达式扩展为最小:y=βx+eββ^Èe^
minyTy−2yTxβ^+β^xTxβ^+2λ|β^|
让我们假设最小二乘解是,这等效于假设,然后看看当我们加上L1罚金时会发生什么。如果,,因此惩罚项等于。目标函数wrt为:β^>0yTx>0 β >0| β | = β 2λβ ββ^>0|β^|=β^2λββ^
−2yTx+2xTxβ^+2λ
显然具有解决方案。 β^=(yTx−λ)/(xTx)
显然,通过增加我们可以将驱动为零(在)。但是,一旦,增加不会使其变为负值,因为松散地写,瞬间变为负值,目标函数的导数变为:λββ^λ=yTxβ^=0λβ^
−2yTx+2xTxβ^−2λ
符号的翻转是由于惩罚项的绝对值性质所致;当变为负数时,惩罚项等于,并且对导数wrt得出。这导致解决方案,显然与不一致(假设最小二乘解,这意味着和λβ−2λββ−2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0)。当将从移到,L1罚则增加,并且平方误差项增加(因为我们距离最小二乘解越来越远),所以我们没有,我们只是坚持。β^0<0β^=0
应该直观地看出,对于最小二乘解,采用相同的逻辑以及适当的符号更改。 β^<0
但是,使用最小二乘罚分,导数变为:λβ^2
−2yTx+2xTxβ^+2λβ^
显然有解决方案。显然,增加不会将其一直推动为零。因此,如果没有一些轻微的要求,例如“如果参数估计值小于则将参数估计值设为零”,那么L2罚则就不能充当变量选择工具。 β^=yTx/(xTx+λ)λϵ
显然,当您使用多元模型时,情况可能会发生变化,例如,移动一个参数估计值可能会迫使另一个参数更改符号,但是一般原理是相同的:L2罚函数不能使您一直为零,因为非常启发式地编写,所以它实际上添加了表达式的“分母” ,但是L1惩罚函数可以添加,因为它实际上添加了“分子”。 β^