如何对空间中的任意点实施L2正则化?


11

这是我在伊恩·古德费洛(Ian Goodfellow)的《深度学习》一书中读到的。

在神经网络的上下文中,“ L2参数范数罚则通常称为权重衰减。这种正则化策略使权重更接近原点。更普遍地,我们可以将参数正则化为任何特定点附近在空间中”,但更常见的是将模型参数调整为零。(深度学习,Goodfellow等。)

我只是好奇。我了解到,只需在成本函数中添加一个正则项,并通过使总成本最小化,就可以影响模型的参数以使其保持较小:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

但是,如何实现该正则化策略的一种版本,该版本会将参数引向任意点?(例如,我们希望规范趋向于5)

Answers:


14

您实际上问了两个不同的问题。

  1. 范数趋于5意味着您希望权重位于以半径5为原点的超球面附近。这种正则化看起来像

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

但我想可以改用λabs(||w||225)

  1. 另一方面,如果要趋向于任意点,则只需要将该点用作中心c

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22

(+1)我认为“规范趋于五”的一种有效方法可能是通过选择OP给定的版本中的调整参数(而不是更改功能)J
user795305,2017年

(我写了一个简短的答案来阐明我的意思。顺便说一句,谢谢您澄清所问两个问题的区别!)
user795305

这样做的一个共同的(实用的)目标是朝某个已知的工作点进行调整,例如,您要替换的先前的模型,但您希望对其进行“平滑”过渡
oDDsKooL

6

定义我们知道,这是因为惩罚的原点是其最小化器。

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax指出,类似地,这种成功的概括可能使我们提出估计器其中是一个函数其最小化器满足我们寻求的某些特性。实际上,Sycorax取,其中在原点处(唯一)最小,尤其是。因此,根据需要。但是,不幸的是,两个选择limλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5g导致惩罚是非凸的,导致估算器难以计算。

如果我们坚持将视为对“趋向于”的唯一解释,则上述分析似乎是最好的解决方案(可能取决于的选择,对此我没有更好的建议)。问题。但是,假设,则存在一些从而使OP问题的最小化器满足。因此而无需更改目标函数。如果不存在这样的,那么计算问题gλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y)本质上是困难的。确实,在尝试鼓励自然属性时,除了之外,无需考虑任何估计量。w^λw^λ22

(要强迫惩罚的估算器获得惩罚值,而惩罚的估算器无法实现该惩罚值对我来说似乎很不自然。如果有人知道实际上需要这样做的任何地方,请发表评论!)


1
这是一个很好的补充。+1
Sycorax说应

2

对于适当的,可以将其视为负对数似然性,对于正态分布,可以将适当的正则化视为负对数似然性。这种方法称为最大后验(MAP)。LJ

根据MAP可以很容易地看到Sycorax的示例。

有关MAP的详细信息,请参阅以下说明。根据我的经验,使用谷歌搜索“最大后验正则化”可得出良好的结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.