Answers:
在《深度学习书》第8.7.1节中,有一个完美的答案:
标准化一个单元的平均值和标准偏差会降低包含该单元的神经网络的表达能力。为了保持网络的表达能力,通常用γH+β代替简单的归一化H来代替这批隐藏的单元激活H。标准偏差。乍看之下,这似乎毫无用处-为什么我们将均值设置为0,然后引入一个参数将其重新设置为任意值β?
答案是,新的参数化可以代表与旧的参数化相同的输入功能族,但是新的参数化具有不同的学习动力。在旧的参数化中,H的平均值由H之下各层中参数之间的复杂相互作用确定。在新的参数化中,γH+β的平均值仅由β确定。通过梯度下降,新的参数化更容易学习。