我们可以使用MLE来估计神经网络权重吗?


23

我刚刚开始研究统计数据和模型资料。目前,我的理解是我们使用MLE来估计模型的最佳参数。但是,当我尝试了解神经网络如何工作时,似乎它们通常使用另一种方法来估计参数。我们为什么不使用MLE或完全可以使用MLE?

Answers:


16

人工神经网络权重(ANN)的MLE估计当然是可能的;确实,这完全是典型的。对于分类问题,标准目标函数是交叉熵,它与二项式模型的负对数似然性相同。对于回归问题,使用残差平方误差,它与OLS回归的MLE相似。

但是,假设经典统计中得出的MLE的良好属性也适用于神经网络的MLE,则存在一些问题。

  1. ANN估计存在一个普遍的问题:即使是单层ANN,也存在许多对称解决方案。反转隐藏层权重的符号和反转隐藏层激活参数的符号都具有相同的可能性。此外,您可以置换任何隐藏的节点,并且这些置换也具有相同的可能性。这是必然的,因为您必须承认您正在放弃可识别性。但是,如果可识别性不重要,那么您可以简单地接受这些替代解决方案只是彼此的反映和/或排列。

    这与MLE在统计中的经典用法(例如OLS回归)形成鲜明对比:OLS问题是凸的,而当设计矩阵为满秩时则是严格凸的。强凸性意味着存在单个唯一的最小化器。

  2. 当使用无约束的解决方案时,人工神经网络将倾向于过度拟合数据。权重将趋于偏离原点,而变得难以置信的大值,无法很好地概括或准确预测新数据。强加权重衰减或其他正则化方法的作用是将权重估计值缩小为零。这不一定解决(1)中的不确定性问题,但是可以改善网络的泛化性。

  3. 损失函数是非凸的,优化可以找到不是全局最优的局部最优解。也许这些解决方案是一些优化方法停滞不前的鞍点。在这个结果本文发现,现代估计方法回避这个问题。

  4. 在经典的统计设置中,惩罚拟合方法(例如弹性网,或正则化)可以使凸问题成为秩不足(即非凸)问题。由于(1)中的置换问题,这一事实并未扩展到神经网络设置。即使限制参数的范数,对权重进行置换或对称地反转符号也不会更改参数向量的范数;也不会改变可能性。因此,对于置换或反射的模型,损失将保持不变,并且该模型仍未被识别。L1L2


2
我谨与你所说的有所不同。由对称性引起的不同局部最小值具有相同的质量,因此您完全不必担心。您可能想说的是,人工神经网络没有凸损失函数,这使优化更加复杂,并且不能保证找到全局最优值。但是,最近有大量证据表明,人工神经网络实际上并没有那么多的局部极小问题,而是鞍点问题。参见例如arxiv.org/abs/1412.6544
bayerj 2015年

11

在分类问题中,最大化可能性是训练神经网络(监督模型和非监督模型)的最常见方法。

在实践中,我们通常将对数可能性(等效MLE)最小化。使用负对数可能性的唯一限制是具有可解释为概率分布的输出层。通常使用softmax输出层执行此操作。请注意,在神经网络社区中,负对数似然性有时称为交叉熵。当然可以添加正则项(有时可以解释为参数的先验分布,在这种情况下,我们正在寻找最大后验(MAP))。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.