1
为什么ReLU比其他激活功能更好
这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度,但是我猜Relu它有一个缺点,那就是它的期望值。对的输出没有限制Relu,因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家,而不是sigmoid。原因是的期望值tanh等于零,并且有助于更深层次的学习,从而在神经网络中更快地学习。Relu没有这个特性,但是如果我们不考虑它的派生优势,为什么它会如此出色。而且,我猜导数也可能会受到影响。因为激活(输出Relu)用于计算更新规则。