http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/
如果您查看这篇文章的顶部,那么作者会提到L2规范具有唯一的解决方案,而L1规范可能具有很多解决方案。我从正则化的角度理解了这一点,但从在损失函数中使用L1范数或L2范数的角度理解。
如果查看标量x(x ^ 2和| x |)的函数图,则可以很容易地看到两者都有一个唯一的解决方案。
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/
如果您查看这篇文章的顶部,那么作者会提到L2规范具有唯一的解决方案,而L1规范可能具有很多解决方案。我从正则化的角度理解了这一点,但从在损失函数中使用L1范数或L2范数的角度理解。
如果查看标量x(x ^ 2和| x |)的函数图,则可以很容易地看到两者都有一个唯一的解决方案。
Answers:
让我们考虑一个最简单的可能的一维问题。(高维案例具有相似的属性。)
虽然和都有一个唯一的最小值(具有不同x偏移的绝对值函数的总和)通常不会。考虑和:
(注意,尽管在x轴上有标签,但这实际上是的函数;我应该修改标签,但是我将其保留不变)
在更高的层面,你可以得到恒定的最小的区域与范数。有一个在拟合直线的情况下的例子在这里。
二次仍然是二次的,因此将具有唯一的解决方案。在较高的维数(比如说多元回归)中,二次问题可能不会自动具有唯一的最小值-您可能具有多重共线性,导致参数空间损失为负的较低维数脊;与这里介绍的问题有些不同。
一个警告。您链接到的页面声称 -norm回归很可靠。我不得不说我并不完全同意。只要它们不是影响点(x空间中的差异),它就可以抵抗y方向上的大偏差。即使是一个有影响力的异常值,它也可能被任意破坏。这里有一个例子在这里。
由于(在某些特定情况下)您通常不会保证没有任何有高度影响力的观察,因此我不会称L1回归为稳健的。
绘图的R代码:
fi <- function(x,i=0) abs(x-i)
f <- function(x) fi(x,1)+fi(x,3)
plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)
plot
。头脑被炸了。
最小化L2损耗对应于计算算术平均值,这是明确的;而最小化L1损耗对应于计算中位数,如果在中值计算中包括偶数个元素,则模棱两可(请参见集中趋势:变分问题的解决方案))。