批处理规范为何具有可学习的规模和转移性?


13

据我了解,批处理规范将所有输入要素归一化为一层,呈单位正态分布。通过测量当前微型批次的平均值和方差来估计。N(μ=0,σ=1)μ,σ2

归一化后,将按比例缩放并按标量值移动输入:

x^i=γx^i+β

(如果我错了,请纠正我-这是我开始有点不确定的地方。)

γ和是标量值,每个成批处理的图层都有一对。使用backprop和SGD可以了解它们以及权重。β

我的问题是,这些参数不是多余的吗,因为可以通过图层本身的权重以任何方式缩放和移动输入。换句话说,如果

y=Wx^+b

x^=γx^+β

然后

y=Wx^+b

其中且。W=Wγb=Wβ+b

那么将它们添加到已经能够学习规模和转移的网络的意义何在呢?还是我完全误会了事情?

Answers:


13

在《深度学习书》第8.7.1节中,有一个完美的答案:

标准化一个单元的平均值和标准偏差会降低包含该单元的神经网络的表达能力。为了保持网络的表达能力,通常用γH+β代替简单的归一化H来代替这批隐藏的单元激活H。标准偏差。乍看之下,这似乎毫无用处-为什么我们将均值设置为0,然后引入一个参数将其重新设置为任意值β?

答案是,新的参数化可以代表与旧的参数化相同的输入功能族,但是新的参数化具有不同的学习动力。在旧的参数化中,H的平均值由H之下各层中参数之间的复杂相互作用确定。在新的参数化中,γH+β的平均值仅由β确定。通过梯度下降,新的参数化更容易学习。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.