为什么ReLU比其他激活功能更好

这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度，但是我猜Relu它有一个缺点，那就是它的期望值。对的输出没有限制Relu，因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家，而不是sigmoid。原因是的期望值tanh等于零，并且有助于更深层次的学习，从而在神经网络中更快地学习。Relu没有这个特性，但是如果我们不考虑它的派生优势，为什么它会如此出色。而且，我猜导数也可能会受到影响。因为激活（输出Relu）用于计算更新规则。

— 媒体
source

与ReLU一起进行某种规格化（例如批处理规格化，层规格化）是很常见的。这将调整输出范围。

— ncasas

@ncasas但是在CNN标准化输出中relu并不常见吗？至少我从未见过。

— 媒体

您是对的，在不是很深的CNN中，没有批量标准化是正常的。您是否考虑过体重初始值的作用？（例如，他初始化）

— ncasas

是的，实际上，它们以某种方式防止了梯度的消失/爆炸，我猜经过一些迭代后输出会变大。

— 媒体

RELU的最大优点确实是它的梯度，其大大加快的随机梯度下降收敛相比乙状结肠/双曲正切函数（非饱和纸由Krizhevsky等人）。

但这不是唯一的优势。这里是对ReLu激活和诱导正则化的稀疏效应的讨论。另一个不错的特性是，与涉及昂贵操作（指数等）的tanh / S形神经元相比，ReLU可以通过简单地将激活矩阵阈值设为零来实现。

但是我不相信现代神经网络的巨大成功仅仅是由于ReLu 。新的初始化技术，例如Xavier初始化，辍学和（后来的）batchnorm也起着非常重要的作用。例如，著名的AlexNet使用ReLu 和 Dropout 。

因此，请回答您的问题：ReLu具有非常好的属性，尽管并不理想。但是，当与其他出色的技术结合使用时，它才能真正证明自己，这些技术可以解决您提到的非零中心问题。

UPD：ReLu输出确实不是零中心的，并且确实损害了NN的性能。但是，可以通过其他正则化技术（例如batchnorm）解决此特定问题，该技术可在激活之前对信号进行归一化：

$x = Wu+ b$

— 格言
source

我应该强调这一部分：我只是想说ReLu并不能解决这个问题。没错，ReLu输出不是以零为中心的，这确实会损害NN的性能，除非权重经过正规化。但是饱和渐变对NN的伤害更大，因此尽管采用ReLu有很多缺点，但它仍是向前迈出的一步。

— Maxim

请问您说的体重标准化是什么意思？在答案中以及您强调的内容中。

— 媒体

更新我的回答有关这一具体问题的一些细节

— 马克西姆

我感到有些困惑，为什么不只使用身份功能呢？负数取0的优势是什么？

— 亚历克斯

@Alex id不是非线性的。等效于NN中只有线性层。看到这个问题-stackoverflow.com/q/46659525/712995

— Maxim