我很好奇为什么通常只有和规范正则化。有证据证明为什么这些更好吗?
我很好奇为什么通常只有和规范正则化。有证据证明为什么这些更好吗?
Answers:
除了@whuber的注释(*)。
Hastie等人的《稀疏统计学习》一书对此进行了讨论。他们还使用所谓的 “范数”(引号,因为这不是严格的数学意义上的范数(**)),它仅计算向量的非零分量的数量。
在这个意义上范数被用于变量选择,但它与一起规范与不是凸,所以难以优化。他们认为(我认为来自Donohoe的一种说法来自压缩感知)范数(即套索)是 “范数”(“最佳子集选择的最接近的凸弛豫”)的最佳凸化。该书还引用了其他规范的一些用法。的 -norm中的单位球看起来像这样l q q < 1 L 1 L 0 L q l q q < 1
(图片来自维基百科),而套索为何可以提供变量选择的图片说明是
该图像来自以上参考书。您可以看到,在套索情况下(单位球绘制为菱形),椭圆(平方和)轮廓首先会在两个角之一处接触菱形。在非凸形情况下(第一个单位球图形),椭圆形和单位球之间的第一次接触更有可能在一个角上,因此这种情况下比套索更强调变量选择。
如果尝试这种“套索与非凸惩罚”在谷歌,你会得到很多的论文做套索样与非凸惩罚样的问题与。 q < 1
(*)为了完整起见,我在此处复制了whuber的评论:
我没有专门研究这个问题,但是在类似情况下的经验表明,可能会有一个很好的定性答案:所有在原点可二次微分的规范在局部都是等效的,其中规范是标准。所有其他规范在原点都是不可区分的,并且定性地重现了它们的行为。这涵盖了整个范围。实际上,和范数的线性组合使数在原点处近似于二阶-这是回归中最重要的,而没有偏余。L 1 L 1 L 2
(**) “范数”缺乏同质性,这是规范的公理之一。同质性对于表示。
我认为问题的答案在很大程度上取决于您如何定义“更好”。如果我的解释正确,那么您想知道为什么与其他选项相比,这些规范如此频繁地出现。在这种情况下,答案很简单。正则化背后的直觉是我有一些向量,并且在某种意义上我希望该向量是“小”的。您如何描述向量的大小?好吧,您可以选择:
您可以采用类的替代规范,但是它们没有像上述那样的友好的物理解释。
在此列表中,范数恰好具有用于最小二乘问题之类的漂亮的,封闭式的解析解。在拥有无限计算能力之前,否则您将无法取得很大进展。我想,“箭头的长度”视觉效果比其他尺寸指标更能吸引人们。即使您选择用于正则化的规范会影响通过最佳解决方案获得的残差类型,但我认为大多数人都不会a)意识到这一点,或者b)在提出问题时会深思熟虑。在这一点上,我希望大多数人会继续使用因为它是“每个人都会做什么”。
一个类比就是指数函数在物理学,经济学,统计,机器学习或任何其他数学驱动的领域中,它几乎可以显示在任何地方。我永远想知道为什么生活中的一切似乎都用指数来描述,直到我意识到我们人类没有那么多技巧。指数具有用于代数和微积分的非常方便的属性,因此,当尝试在现实世界中建模时,它们最终成为任何数学家工具箱中的第一大功能。诸如退相干时间之类的东西可能是由高阶多项式描述的“更好”的东西,但是用代数来描述这些东西就相对困难了,而最重要的是贵公司正在赚钱-指数是更简单和足够好。
否则,对规范的选择会产生非常主观的影响,由您自己决定问题的人来确定最佳解决方案中您的偏爱。您是否更关心解决方案向量中的所有分量在大小上都相似,还是最大分量的大小尽可能小?该选择将取决于您要解决的特定问题。