这里的答案指的是sigmoid
像激活函数一样已经消失的梯度和爆炸的梯度,但是我猜Relu
它有一个缺点,那就是它的期望值。对的输出没有限制Relu
,因此其期望值不为零。我记得之前的时间普及Relu
这tanh
是最流行之间机器学习专家,而不是sigmoid
。原因是的期望值tanh
等于零,并且有助于更深层次的学习,从而在神经网络中更快地学习。Relu
没有这个特性,但是如果我们不考虑它的派生优势,为什么它会如此出色。而且,我猜导数也可能会受到影响。因为激活(输出Relu
)用于计算更新规则。
与ReLU一起进行某种规格化(例如批处理规格化,层规格化)是很常见的。这将调整输出范围。
—
ncasas
@ncasas但是在
—
媒体
CNN
标准化输出中relu
并不常见吗?至少我从未见过。
您是对的,在不是很深的CNN中,没有批量标准化是正常的。您是否考虑过体重初始值的作用?(例如,他初始化)
—
ncasas
是的,实际上,它们以某种方式防止了梯度的消失/爆炸,我猜经过一些迭代后输出会变大。
—
媒体