在神经网络中,均方误差是否总是凸出的?


9

我提到的多种资源都提到MSE很棒,因为它是凸的。但是我不知道怎么做,尤其是在神经网络的情况下。

假设我们有以下内容:

  • X:训练数据集
  • Y:目标
  • Θ:模型(具有非线性的神经网络模型)的参数集fΘ

然后:

MSE(Θ)=(fΘ(X)Y)2

为什么这个损失函数总是凸的?这是否取决于?fΘ(X)

Answers:


1

简而言之,答案是:MSE本身在输入和参数上是凸的。但是在任意神经网络上,由于存在以激活函数形式存在的非线性,它并不总是凸的。我的答案的来源在这里


1

凸性

的函数与是凸的,如果由于任何,并且对于任何, f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

可以证明,这样的凸具有一个全局最小值。唯一的全局最小值消除了由局部最小值产生的陷阱,这些陷阱可能出现在试图实现全局最小值收敛的算法中,例如误差函数的最小化。f(x)

尽管误差函数在所有连续的线性上下文和许多非线性上下文中可能都是100%可靠的,但这并不意味着所有可能的非线性上下文都在全局最小值上收敛。

均方误差

给定一个描述理想系统行为的函数和一个系统(其中是参数矢量,矩阵,立方体或超立方体,),是通过合理或通过收敛创建的(如在神经网络训练中),均方误差(MSE)函数可以表示如下。s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

您正在阅读的材料可能并不声称或相对于是凸的,但是相对于和是凸的不管它们是什么 对于任何连续的和都可以证明后面的陈述。 a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

混淆收敛算法

如果问题在于是否可以混淆特定的和在合理的MSE收敛裕度内实现近似的方法,答案是“是”。因此,MSE不是唯一的错误模型。a(x,p)s(x)a(x,p)

摘要

最好的总结方法是,应基于以下知识,从一组凸误差模型中定义或选择。e(β)

  • 系统已知性质s(x)
  • 逼近模型a(x,p)
  • 张量用于生成收敛序列中的下一个状态

股票凸误差模型集由于其简单性和计算节俭性而当然包括MSE模型。


因此,简短的答案是MSE,而Theta总是凸的。尽管Feedforard(X,Theta)可能是非凸的?
user74211

好吧,@ user74211,该评论实际上并未回答问题。如果它所适用的函数不是,那么专门问如何均方误差的问题总是可以凸出来的。您的评论是问题陈述的一部分,无需寻求解释。
FauChristian
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.