Answers:
人工神经网络权重(ANN)的MLE估计当然是可能的;确实,这完全是典型的。对于分类问题,标准目标函数是交叉熵,它与二项式模型的负对数似然性相同。对于回归问题,使用残差平方误差,它与OLS回归的MLE相似。
但是,假设经典统计中得出的MLE的良好属性也适用于神经网络的MLE,则存在一些问题。
ANN估计存在一个普遍的问题:即使是单层ANN,也存在许多对称解决方案。反转隐藏层权重的符号和反转隐藏层激活参数的符号都具有相同的可能性。此外,您可以置换任何隐藏的节点,并且这些置换也具有相同的可能性。这是必然的,因为您必须承认您正在放弃可识别性。但是,如果可识别性不重要,那么您可以简单地接受这些替代解决方案只是彼此的反映和/或排列。
这与MLE在统计中的经典用法(例如OLS回归)形成鲜明对比:OLS问题是凸的,而当设计矩阵为满秩时则是严格凸的。强凸性意味着存在单个唯一的最小化器。
当使用无约束的解决方案时,人工神经网络将倾向于过度拟合数据。权重将趋于偏离原点,而变得难以置信的大值,无法很好地概括或准确预测新数据。强加权重衰减或其他正则化方法的作用是将权重估计值缩小为零。这不一定解决(1)中的不确定性问题,但是可以改善网络的泛化性。
损失函数是非凸的,优化可以找到不是全局最优的局部最优解。也许这些解决方案是一些优化方法停滞不前的鞍点。在这个结果本文发现,现代估计方法回避这个问题。
在经典的统计设置中,惩罚拟合方法(例如弹性网,或正则化)可以使凸问题成为秩不足(即非凸)问题。由于(1)中的置换问题,这一事实并未扩展到神经网络设置。即使限制参数的范数,对权重进行置换或对称地反转符号也不会更改参数向量的范数;也不会改变可能性。因此,对于置换或反射的模型,损失将保持不变,并且该模型仍未被识别。