我在这里阅读以下内容:
- 乙状结肠输出不是零中心的。这是不希望的,因为神经网络中处理的后续层中的神经元(即将对此进行详细介绍)将接收到非零中心的数据。这对梯度下降期间的动力学有影响,因为如果进入神经元的数据始终为正(例如, 元素,在),则权重的梯度 将在反向传播期间变为全部为正,或全部为负(取决于整个表达式的梯度 )。这可能会在权重的梯度更新中引入不希望的之字形动力学。但是,请注意,一旦将这些梯度添加到一批数据中,权重的最终更新就可以具有可变的符号,从而在某种程度上缓解了此问题。因此,这是一个不便,但是与上面的饱和激活问题相比,后果不那么严重。
为什么让所有(在元素上)都导致全正或全负梯度?
2
观看CS231n视频时,我也有完全相同的问题。
—
地铁比赛