为什么我们只看到和正则化而看不到其他规范?


36

我很好奇为什么通常只有和规范正则化。有证据证明为什么这些更好吗?L1L2


13
(+1)我没有专门研究这个问题,但是在类似情况下的经验表明,可能会有一个很好的定性答案:所有在原点第二次可微的范数在局部都是等效的,其中规范是标准。所有其他规范在原点都是不可区分的,并且定性地再现了它们的行为。这涵盖了整个范围。在效果上,的线性组合和范数近似于任何在原点范数二阶-这是在回归没有外围残差最重要的事情。L2L1L1L2
ub

3
是的:这本质上是泰勒定理。
ub

4
这个问题的前提是错误的:使用了其他 -norm,尽管不那么常见了。p
Firebug

3
@whuber提到的线性组合通常称为弹性网
卡·花旗

4
此外,在Lp规范中,也获得了很多成就。L
user795305

Answers:


28

除了@whuber的注释(*)。

Hastie等人的《稀疏统计学习》一书对此进行了讨论。他们还使用所谓的 “范数”(引号,因为这不是严格的数学意义上的范数(**)),它仅计算向量的非零分量的数量。L0

在这个意义上范数被用于变量选择,但它与一起规范与不是凸,所以难以优化。他们认为(我认为来自Donohoe的一种说法来自压缩感知)范数(即套索)是 “范数”(“最佳子集选择的最接近的凸弛豫”)的最佳凸化。该书还引用了其他规范的一些用法。的 -norm中的单位球看起来像这样l q q < 1 L 1 L 0 L q l q q < 1L0lqq<1L1L0Lqlqq<1

在此处输入图片说明

(图片来自维基百科),而套索为何可以提供变量选择的图片说明是

在此处输入图片说明

该图像来自以上参考书。您可以看到,在套索情况下(单位球绘制为菱形),椭圆(平方和)轮廓首先会在两个角之一处接触菱形。在非凸形情况下(第一个单位球图形),椭圆形和单位球之间的第一次接触更有可能在一个角上,因此这种情况下比套索更强调变量选择。

如果尝试这种“套索与非凸惩罚”在谷歌,你会得到很多的论文做套索样与非凸惩罚样的问题与。 q < 1lqq<1

(*)为了完整起见,我在此处复制了whuber的评论:

我没有专门研究这个问题,但是在类似情况下的经验表明,可能会有一个很好的定性答案:所有在原点可二次微分的规范在局部都是等效的,其中规范是标准。所有其他规范在原点都是不可区分的,并且定性地重现了它们的行为。这涵盖了整个范围。实际上,和范数的线性组合使数在原点处近似于二阶-这是回归中最重要的,而没有偏余。L 1 L 1 L 2L2L1L1L2

(**) “范数”缺乏同质性,这是规范的公理之一。同质性对于表示。l0α0αx=αx


1
@kjetilbhalvorsen感谢您的深刻回答。我选择了不常见的上标,以便与问题和标题保持一致。当然,您可以按照自己喜欢的方式编写它。
Ferdi

@kjetilbhalvorsen您能谈谈Whuber的评论吗?众所周知,范数在原点是不可微的(例如,考虑)。尚不清楚规范的“局部对等”是什么意思。至少可以说需要参考。L2x|x|
Olivier

@Olivier -norm在起源上是可区分的,您正在考虑 -norm。21
Firebug

@Firebug号。我正在考虑一维的规范,它与规范相同。我想念什么吗?L2L1
Olivier

2
@Olivier哦,您实际上是对的。我误解了,因为平方 -norm实际上被使用,并且在任何地方都是可区分的。2
Firebug

12

我认为问题的答案在很大程度上取决于您如何定义“更好”。如果我的解释正确,那么您想知道为什么与其他选项相比,这些规范如此频繁地出现。在这种情况下,答案很简单。正则化背后的直觉是我有一些向量,并且在某种意义上我希望该向量是“小”的。您如何描述向量的大小?好吧,您可以选择:

  • 您是否它有元素?(L0)
  • 是否将所有元素加在一起?(L1)
  • 您是否测量的“箭头”有多长?(L2)
  • 您是否使用最大元素的大小?(L)

您可以采用类的替代规范,但是它们没有像上述那样的友好的物理解释。L3

在此列表中,范数恰好具有用于最小二乘问题之类的漂亮的,封闭式的解析解。在拥有无限计算能力之前,否则您将无法取得很大进展。我想,“箭头的长度”视觉效果比其他尺寸指标更能吸引人们。即使您选择用于正则化的规范会影响通过最佳解决方案获得的残差类型,但我认为大多数人都不会a)意识到这一点,或者b)在提出问题时会深思熟虑。在这一点上,我希望大多数人会继续使用因为它是“每个人都会做什么”。L2L2

一个类比就是指数函数在物理学,经济学,统计,机器学习或任何其他数学驱动的领域中,它几乎可以显示在任何地方。我永远想知道为什么生活中的一切似乎都用指数来描述,直到我意识到我们人类没有那么多技巧。指数具有用于代数和微积分的非常方便的属性,因此,当尝试在现实世界中建模时,它们最终成为任何数学家工具箱中的第一大功能。诸如退相干时间之类的东西可能是由高阶多项式描述的“更好”的东西,但是用代数来描述这些东西就相对困难了,而最重要的是贵公司正在赚钱-指数是更简单和足够好。ex

否则,对规范的选择会产生非常主观的影响,由您自己决定问题的人来确定最佳解决方案中您的偏爱。您是否更关心解决方案向量中的所有分量在大小上都相似,还是最大分量的大小尽可能小?该选择将取决于您要解决的特定问题。


10

主要看到和规范的主要原因是它们涵盖了当前的大多数应用程序。例如,规范也称为出租车类规范,一种格子直线连接规范,包括绝对值规范L1L2L1

L2除最小二乘法外,范数是空间中的欧几里得距离n以及复变量范数。此外,Tikhonov正则化和岭回归,即最小化,通常被认为是范数。Axb2+Γx2L2

维基百科提供有关这些规范和其他规范的信息。值得一提的是。广义范数,范数也称为统一范数L0LpL

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.