为什么激活函数必须是单调的?


15

我目前正在准备有关神经网络的考试。在以前考试的一些协议中,我读到(多层感知器中)神经元的激活功能必须是单调的。

我知道激活函数应该是可微的,在大多数点上具有不为0的导数,并且是非线性的。我不明白为什么单调很重要/有帮助。

我知道以下激活函数,它们是单调的:

  • ReLU
  • 乙状结肠
  • h
  • Softmax:我不确定单调性的定义是否适用于函数F[Rñ[Rñ>1个
  • 软加
  • (身份)

但是,我仍然看不到为什么φX=X2任何原因。

为什么激活函数必须是单调的?

(相关的侧面问题:对数/指数函数不用作激活函数有任何原因吗?)



1
@MartinThoma您确定softmax是单调的吗?
媒体

1
F[Rñ[R>1个=1个<[Rññ>1个

1
@MartinThoma谢谢,实际上这也是我的问题。我不知道,现在仍然不知道,在具有多个输出的函数中是否存在单调的扩展。数学的东西,你知道的!
媒体

Answers:


13

单调性准则有助于神经网络更容易地收敛为更准确的分类器。有关更多详细信息和原因,请参阅此stackexchange答案Wikipedia文章

但是,单调性标准对于激活函数不是强制性的-也可以训练具有非单调激活函数的神经网络。优化神经网络变得越来越困难。请参阅Yoshua Bengio的答案


-1

我将提供一个数学上的理由,说明为什么具有单调功能会有所帮助!

使用 http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun,假设我们的激活函数是单调的,我们可以说,实际上,我们的函数将是可区分的。因此,激活函数的梯度将不会是不稳定的函数。找到我们正在寻找的最小值将更加容易。(价格便宜)

指数函数和对数函数是漂亮的函数,但不受限制(因此,Lebesgue定理的反事实是不正确的,因为Exp和Log是可微分的函数,不受实线限制)。因此,当我们想在最后阶段对示例进行分类时,它们将失败。Sigmoid和tanh的效果非常好,因为它们具有易于计算的渐变,并且其范围分别为(0,1)和(-1,1)。


2
有无限多种可微但单调的功能。那么为什么具有单调功能会有所帮助呢?
马丁·托马
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.