为什么ReLU比其他激活功能更好


17

这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度,但是我猜Relu它有一个缺点,那就是它的期望值。对的输出没有限制Relu,因此其期望值不为零。我记得之前的时间普及Relutanh是最流行之间机器学习专家,而不是sigmoid。原因是的期望值tanh等于零,并且有助于更深层次的学习,从而在神经网络中更快地学习。Relu没有这个特性,但是如果我们不考虑它的派生优势,为什么它会如此出色。而且,我猜导数也可能会受到影响。因为激活(输出Relu)用于计算更新规则。


与ReLU一起进行某种规格化(例如批处理规格化,层规格化)是很常见的。这将调整输出范围。
ncasas

@ncasas但是在CNN标准化输出中relu并不常见吗?至少我从未见过。
媒体

您是对的,在不是很深的CNN中,没有批量标准化是正常的。您是否考虑过体重初始值的作用?(例如,他初始化)
ncasas

是的,实际上,它们以某种方式防止了梯度的消失/爆炸,我猜经过一些迭代后输出会变大。
媒体

Answers:


21

RELU的最大优点确实是它的梯度,其大大加快的随机梯度下降收敛相比乙状结肠/双曲正切函数(非饱和由Krizhevsky等人)。

但这不是唯一的优势。这里是对ReLu激活和诱导正则化的稀疏效应的讨论。另一个不错的特性是,与涉及昂贵操作(指数等)的tanh / S形神经元相比,ReLU可以通过简单地将激活矩阵阈值设为零来实现。

但是我不相信现代神经网络的巨大成功仅仅是由于ReLu 。新的初始化技术,例如Xavier初始化,辍学和(后来的)batchnorm也起着非常重要的作用。例如,著名的AlexNet使用ReLu Dropout 。

因此,请回答您的问题:ReLu具有非常好的属性,尽管并不理想。但是,当与其他出色的技术结合使用时,它才能真正证明自己,这些技术可以解决您提到的非零中心问题。

UPD:ReLu输出确实不是零中心的,并且确实损害了NN的性能。但是,可以通过其他正则化技术(例如batchnorm)解决此特定问题,该技术可在激活之前对信号进行归一化

x=Wu+b


1
我应该强调这一部分:我只是想说ReLu并不能解决这个问题。没错,ReLu输出不是以零为中心的,这确实会损害NN的性能,除非权重经过正规化。但是饱和渐变对NN的伤害更大,因此尽管采用ReLu有很多缺点,但它仍是向前迈出的一步。
Maxim

请问您说的体重标准化是什么意思?在答案中以及您强调的内容中。
媒体

更新我的回答有关这一具体问题的一些细节
马克西姆

我感到有些困惑,为什么不只使用身份功能呢?负数取0的优势是什么?
亚历克斯

@Alex id不是非线性的。等效于NN中只有线性层。看到这个问题-stackoverflow.com/q/46659525/712995
Maxim
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.