Answers:
让我们想象一下,您想从某些观察到的输入输出对(x 1,y 1)… ,(x N,y N)推断出一些参数。让我们假设输出通过β与输入线性相关,并且数据被某些噪声corrupt破坏:
其中是高斯噪声均值0和方差σ 2。这引起了高斯似然:
让我们正规化参数通过实施高斯之前ñ(β | 0 ,λ - 1),其中,λ是严格的正标量。因此,结合可能性和先验,我们只需:
让我们采用上述表达式的对数。删除一些常量,我们得到:
如果我们最大限度地与就上述表达,我们得到了所谓的最大后验估计β,简称MAP估计。在该表达式中,显而易见的是,为什么高斯先验可以解释为L2正则化项。
类似地,可以以相同的方式来理解L1范数和拉普拉斯先验之间的关系。拉普拉斯先验代替高斯先验,将它与您的似然相结合并取对数。
关于这两个问题的很好的参考文献(也许有些高级)是论文“用于监督学习的自适应稀疏性”,目前似乎很难在网上找到。或者查看“使用Jeffreys Prior的自适应稀疏”。另一个很好的参考是“关于使用拉普拉斯先验的贝叶斯分类”。
对于具有多元正态先验和多元正态似然性的线性模型,您最终得到多元正态后验分布,其中后验均值(和最大后验模型)恰好是您使用Tikhonov正则化(正则化)所获得的带有适当正则化参数的最小二乘法。
请注意,还有一个更根本的区别,即贝叶斯后验是概率分布,而Tikhonov正则化最小二乘解是特定点估计。
在许多有关逆问题的贝叶斯方法的教科书中对此进行了讨论,例如:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
类似地,如果您具有拉普拉斯先验和多元正态似然,则后验分布的最大值发生在您可以通过求解正则化最小二乘问题得到的点上。
首先要注意,中位数使L1范数最小化(有关L1和L2的更多信息,请参见此处或此处)
而均值使L2最小
Hurley,WJ(2009)一种计算双指数分布MLE的归纳方法。现代应用统计方法杂志:8(2),第25条。
为了更精确地说明等价关系:
通过L2正则化来优化模型权重以最小化平方误差损失函数,等同于找到使用Bayes规则评估的后验分布下最有可能的权重,且先于零均值独立的高斯权重
证明:
如上所述的损失函数将由下式给出
使用贝叶斯规则,我们有
由于协方差是单位矩阵的倍数,因此我们能够将多维Guassian分解为一个乘积。
我们当然可以减去常数,然后乘以任意数量而不会从根本上影响损失函数。(常数不执行任何操作,乘法有效地缩放学习速率。不会影响最小值的位置)。因此,我们可以看到后验分布的负对数概率与L2正则平方误差损失函数等效。
这种等价性是一般性的,适用于权重的任何参数化函数-不仅仅是上面似乎暗示的线性回归。
D dimension
线性回归的情况下,可以beta
和sigma
有明确的解决方案?我正在阅读PRML,在第30页上找到方程(1.67),却不知道如何求解。我们以最大的可能性求解beta
,然后sigma
将梯度设置为零。在正则化最小二乘中,由于重新定形参数lambda
是已知的,我们beta
直接求解。但是,如果我们直接解决了MAP,有什么解决的顺序beta
,sigma
?他们可以有明确的解决方案,还是必须使用迭代过程?