L2正则化等效于高斯先验

56

我一直在阅读，直觉上我可以看到这一点，但是从L2正则化到分析上说这是一个高斯先验又如何呢？说L1等于拉普拉斯先验也是如此。

任何进一步的参考将是伟大的。

regression references regularization

— 匿名
source

54

让我们想象一下，您想从某些观察到的输入输出对推断出一些参数。让我们假设输出通过与输入线性相关，并且数据被某些噪声破坏： $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

其中是高斯噪声均值和方差。这引起了高斯似然： $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

让我们正规化参数通过实施高斯之前其中，是严格的正标量。因此，结合可能性和先验，我们只需： $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

让我们采用上述表达式的对数。删除一些常量，我们得到：

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

如果我们最大限度地与就上述表达，我们得到了所谓的最大后验估计，简称MAP估计。在该表达式中，显而易见的是，为什么高斯先验可以解释为L2正则化项。 $\beta$ $\beta$

类似地，可以以相同的方式来理解L1范数和拉普拉斯先验之间的关系。拉普拉斯先验代替高斯先验，将它与您的似然相结合并取对数。

关于这两个问题的很好的参考文献（也许有些高级）是论文“用于监督学习的自适应稀疏性”，目前似乎很难在网上找到。或者查看“使用Jeffreys Prior的自适应稀疏”。另一个很好的参考是“关于使用拉普拉斯先验的贝叶斯分类”。

— ian
source

1

在一个D dimension线性回归的情况下，可以beta和sigma有明确的解决方案？我正在阅读PRML，在第30页上找到方程（1.67），却不知道如何求解。我们以最大的可能性求解beta，然后sigma将梯度设置为零。在正则化最小二乘中，由于重新定形参数lambda是已知的，我们beta直接求解。但是，如果我们直接解决了MAP，有什么解决的顺序beta，sigma？他们可以有明确的解决方案，还是必须使用迭代过程？

— stackunderflow '16

是否缺少对“方”

最后一个方程，即在

？

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

— brian.keng 2016年

@AdamO它限制系数可以采用的值的数量。例如，如果先验值在1到10之间，则系数取其他任何值（即[-inf至1]和[10，+ inf]）的概率为0。

— imsrgadich

1

在这种情况下

是已知的。是否当它的工作

未知？对于贝叶斯线性回归，可以使用反伽马先验先于方差形成共轭。但是我不确定代数是否等于相同的表达式。

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

— AdamO

11

对于具有多元正态先验和多元正态似然性的线性模型，您最终得到多元正态后验分布，其中后验均值（和最大后验模型）恰好是您使用Tikhonov正则化（正则化）所获得的带有适当正则化参数的最小二乘法。 $L_{2}$

请注意，还有一个更根本的区别，即贝叶斯后验是概率分布，而Tikhonov正则化最小二乘解是特定点估计。

在许多有关逆问题的贝叶斯方法的教科书中对此进行了讨论，例如：

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

类似地，如果您具有拉普拉斯先验和多元正态似然，则后验分布的最大值发生在您可以通过求解正则化最小二乘问题得到的点上。 $L_{1}$

— 布莱恩·波彻斯
source

9

首先要注意，中位数使L1范数最小化（有关L1和L2的更多信息，请参见此处或此处）

中位数 （ X ） = \underset{s}{一种 [R G 米 一世 ñ} \sum_{一世} | X_{一世} - s |^{1个}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

而均值使L2最小

意思 （ X ） = \underset{s}{一种 [R G 米 一世 ñ} \sum_{一世} | X_{一世} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

$\mu$ $\mu$

Hurley，WJ（2009）一种计算双指数分布MLE的归纳方法。现代应用统计方法杂志：8（2），第25条。

— 蒂姆
source

也许这不是这里给出的最严格的数学答案，但是对于L1 / L2正则化初学者来说，这绝对是最简单，最直观的答案。

— SQLServerSteve

8

$k$

\underset{β}{分} （ ÿ - X β ）^{'} （ ÿ - X β ）

$\min_{\beta} (y - X \beta)' (y - X \beta)$

$L^p$

\underset{β}{分} （ ÿ - X β ）^{'} （ ÿ - X β ） + λ \sum_{一世 = 1个}^{ķ} | β_{一世} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

我们可以等效地做（注意符号变化）

\underset{β}{最高} - （ ÿ - X β ）^{'} （ ÿ - X β ） - λ \sum_{一世 = 1个}^{ķ} | β_{一世} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

这直接与贝叶斯原理有关

p Ø s Ť Ë [R 一世 Ø [R \propto 升 一世 ķ Ë 升 一世 H Ø Ø d \times p [R 一世 Ø [R

$posterior \propto likelihood \times prior$

或等效地（在常规条件下）

升 Ø G （ p Ø s Ť Ë [R 一世 Ø [R ） 〜 升 Ø G （ 升 一世 ķ Ë 升 一世 H Ø Ø d ） + 升 Ø G （ p Ë ñ 一种 升 Ť ÿ ）

$log(posterior) \sim log(likelihood) + log(penalty)$

现在不难发现哪种指数族分布对应于哪种惩罚类型。

— 乔治·格格
source

3

为了更精确地说明等价关系：

通过L2正则化来优化模型权重以最小化平方误差损失函数，等同于找到使用Bayes规则评估的后验分布下最有可能的权重，且先于零均值独立的高斯权重

证明：

如上所述的损失函数将由下式给出

大号 = \underset{Ø [R 一世 G 一世 ñ 一种 升 升 Ø s s F ü ñ C Ť 一世 Ø ñ}{\underset{⏟}{[\sum_{ñ = 1个}^{ñ} （ ÿ^{（ ñ ）} - F_{w} （ X^{（ ñ ）} ） ）^{2}]}} + \underset{{大号}_{2} 升 Ø s s}{\underset{⏟}{λ \sum_{一世 = 1个}^{ķ} w_{一世}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

ñ （ X; μ ， Σ ） = \frac{1个}{（ 2 π ）^{ð / 2} | Σ |^{1个 / 2}} 经验值 （ - \frac{1个}{2} （ X - μ ）^{⊤} Σ^{- 1个} （ X - μ ） ）

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

使用贝叶斯规则，我们有

\begin{aligned} p （ w | ð ） & = \frac{p （ ð | w ） p （ w ）}{p （ ð ）} \\ \propto p （ ð | w ） p （ w ） \\ \propto [\prod_{ñ}^{ñ} ñ （ ÿ^{（ ñ ）}; F_{w} （ X^{（ ñ ）} ） ， σ_{ÿ}^{2} ）] ñ （ w; 0 ， σ_{w}^{2} 一世 ） \\ \propto \prod_{ñ}^{ñ} ñ （ ÿ^{（ ñ ）}; F_{w} （ X^{（ ñ ）} ） ， σ_{ÿ}^{2} ） \prod_{一世 = 1个}^{ķ} ñ （ w_{一世}; 0 ， σ_{w}^{2} ） \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

由于协方差是单位矩阵的倍数，因此我们能够将多维Guassian分解为一个乘积。

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

我们当然可以减去常数，然后乘以任意数量而不会从根本上影响损失函数。（常数不执行任何操作，乘法有效地缩放学习速率。不会影响最小值的位置）。因此，我们可以看到后验分布的负对数概率与L2正则平方误差损失函数等效。

这种等价性是一般性的，适用于权重的任何参数化函数-不仅仅是上面似乎暗示的线性回归。

— 镍37
source

1

在讨论某些惩罚最大似然估计和贝叶斯程序的等价性时，需要强调贝叶斯建模的两个特征。

在贝叶斯框架中，先验是根据问题的具体情况选择的，并且不受计算权宜性的驱使。因此，贝叶斯算法使用了各种先验条件，包括现在流行的马蹄先验算法，可解决稀疏的预测变量问题，并且不需要过多依赖等于L1或L2惩罚的先验算法。
使用完整的贝叶斯方法，您可以在完成后访问所有推理过程。例如，您可以量化大回归系数的证据，并且可以获得有关回归系数和整体预测值的可靠区间。在常客制框架中，一旦选择惩罚，您将失去所有推论机器。

— 弗兰克·哈雷尔
source