规范什么特别之处?


13

一个规范是唯一的(至少部分),因为是在间非凸和凸的边界。一个范数是“最稀疏”凸模(右?)。 p = 1 L 1L1p=1L1

我了解欧几里得范数源于几何,当维数具有相同单位时,它具有清晰的解释。但是我不明白为什么它优先于其他实数:?吗?为什么不将整个连续范围用作超参数?p > 1 p = 1.5 p = πp=2p>1p=1.5p=π

我想念什么?


1
“优先使用”在哪些应用程序中特别是?准则在数学,统计学和物理学中无处不在。在某些子领域中,某些准则比其他准则更为普遍,因为它们更有意义或更易于使用。因此,对这个问题的答案可能会是多种多样的(确实如此,以至于我个人认为这是无法回答的)。因此,我将其发布为“社区Wiki”(CW)帖子;但是如果您有特定的应用程序或狭窄的领域,那么通过使问题更加精确,应该可以删除CW状态。
ub

Answers:


12

更为数学上的解释是,由所有以p范数收敛的级数组成的空间只是Hilbert,,没有其他值。这意味着该空间是完整的,并且该空间上的范数可能是由内积引起的(考虑到熟悉的点积),因此使用起来要好一些。 p = 2 R nlpp=2Rn


4

有以下两个原因:

  1. 它以非常特殊的方式与内部产品相关:它是自己的双重规范(即“自我对偶”)。
    这意味着,如果考虑单位球内的所有矢量,则它们与任何矢量的最大内积就是本身的范数。不太幻想,它满足的属性。没有其他规范以这种方式运行。 ž 2 Ž X 2 2 = X X p2z2zx22=xxp

  2. 它具有非常方便的平滑渐变: 您实在无法击败!

    x f(x)22=2 f(x)f(x)

2

尽管可能还有更多原因,但由于以下原因,首选AFAIK p = 2:

  • 相似度/不相似度的度量:对于p = 2,欧几里得范数给出了两个向量之间的相似度或不相似度的度量,然后可以将其进一步用于更好地了解数据。有关此问题的更多详细解答,请参见此处
  • 正则化: L2范数用于机器学习中的正则化,由于两个原因,它是首选的:1)易于区分2)使用L2正则化,权重倾向于与权重成比例地减少。因此,与较小的权重相比,L2正则化对较大的权重的惩罚更大。

1

通常首选线性模型下的平方误差,因为:

  • 与正交性的关系,相对于一些被认为是噪声(非相关性)的随机现象,它表现得很好
  • 它是凸且可微的,不是L1
  • 当导数变成线性系统时,它产生易于处理的优化算法

1p 0 < p < 1L1通常被认为是严格稀疏性(非零项计数)的便捷代理或凸弛,后者稀疏组合,例如,对于大多数大型线性方程组来说,最小 ell_1-范数解也是最稀疏的解决方案1。有些人倾向于使用,来实施更多的稀疏性,但代价是“失去”凸度。p0<p<1

但是,计数度量对非零缩放不敏感。将向量乘以非零常数,则非零项的数量将保持不变。因此,是阶齐次的,而范数或准范数都是 阶齐次的。即使以某种方式 如,这种差异对我来说似乎也是一个差距。0 0 p 1 p0 p 0000p1p0p0

因此,与规范保持一致,一些组织正在考虑(非凸)规范比率,例如 ,例如,参见《出租车》Euclid中的参考:带平滑的正则化的稀疏盲反卷积1 / 21/21/2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.