术语“饱和非线性”是什么意思?


30

我正在阅读具有深度卷积神经网络的ImageNet分类论文,在第3节中,他们解释了卷积神经网络的体系结构,并解释了如何使用以下方法:

非饱和非线性f(x)=max(0,x)

因为训练起来更快。在那篇论文中,他们似乎将饱和非线性称为CNN中使用的更传统的函数,S形和双曲正切函数(即FX=Ť一种ñHXFX=1个1个+Ë-X=1个+Ë-X-1个为饱和)。

他们为什么将这些功能称为“饱和”或“非饱和”?这些功能在什么意义上是“饱和”或“非饱和”的?这些术语在卷积神经网络的背景下意味着什么?它们是否用于其他机器学习(和统计)领域?


我也发现这个法定答案非常有帮助。
坦率的

Answers:


26

直觉

饱和激活功能会压缩输入。


定义

  • F是非饱和当且仅当|ž-Fž|=+|ž+Fž|=+
  • F是饱和的,如果F不是非饱和的。

这些定义并不特定于卷积神经网络。


例子

经整流的线性单元(RELU)的激活功能,其被定义为FX=一种X0X是非饱和因为ž+Fž=+

在此处输入图片说明

乙状结肠激活函数,定义为FX=1个1个+Ë-X是饱和的,因为它南瓜实数范围之间[01个]

在此处输入图片说明

[-1个1个]

在此处输入图片说明

(图来自MIT许可证CS231n


1
啊,很好很有意义!我知道这不是我最初的问题,但是对于ML和CNN而言,该属性有什么重要意义?
查理·帕克

对于人工神经网络,要避免使一个单元的输出较大而对神经网络的输出层产生太大影响。
Franck Dernoncourt 2015年

tan和Sigmoid有什么区别?他们两个都将数字压在一个近距离内!我不明白,您能否再详细说明一下?我在数学上有点不好。(顺便说一句,我来自CNN的视角)
Rika

@FranckDernoncourt你是说饱和激活tanh吗?我猜有错字吗?:)
CoderSpinoza

1
@tenCupMaximum:饱和表示填充到无法再添加的程度。在饱和功能的情况下,这意味着在某一点之后,功能输入的任何进一步增加将不再导致其输出(几乎)达到最大值的(有意义的)增加。在这一点上,功能为“全部填满”,可以这么说(或饱和)。
鲁宾·范·卑尔根

0

最常用的激活功能是LOG和TanH。这些函数的范围很紧凑,这意味着它们将神经反应压缩为实数的有界子集。LOG将输入压缩为0到1之间的输出,将TAN H压缩为-1和1之间的输出。这些函数在边界处显示限制行为。

在边界处,输出相对于输入∂yj/∂xj的梯度非常小。因此,梯度很小,因此收敛的步幅较小,因此收敛时间较长。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.