1
为什么必须谨慎进行批标准化的示例有什么解释?
我正在阅读批处理规范化论文 [1],其中有一个小节通过一个示例,试图说明为什么必须仔细进行规范化。老实说,我无法理解该示例的工作原理,并且我真的很好奇能够尽可能多地了解它们。首先让我在这里引用一下: 例如,考虑一个带有输入u的层,该层添加了学习的偏差b,并通过减去对训练数据计算的激活平均值来对结果进行归一化:其中 是训练集上的值的集合,。如果梯度下降步骤忽略了对的依赖性,则它将更新,其中。然后,。因此,更新到的组合X=Ü+b,X={X1。。。Ñ}Xë[X]=Σ Ñ 我= 1 X我ë[X]bb←b+Δ>bΔbα-∂升X^= x − E[ x ]x^=x−E[x]\hat{x} = x − E[x]x = u + b ,X= { x1个。。。ñ}x=u+b,X={x1...N}x=u+b, X =\{x_1...N \}XxxË[ x ] = ∑ñ我= 1X一世E[x]=∑i=1NxiE[x] = \sum^N_{i=1} x_iË[ x ]E[x] E[x] bbbb ← b + Δ > bb←b+Δ>bb ← b + \Delta > …