因此,最近有一层“ 图层归一化”文章。Keras 上也有一个实现。
但我记得有几篇论文标题为Recurrent Batch Normalization(Cooijmans,2016)和Batch Normalized Recurrent Neural Networks(Laurent,2015)。这三个之间有什么区别?
我不了解此“相关工作”部分:
批处理规范化先前已扩展到递归神经网络[Laurent等,2015,Amodei等,2015,Cooijmans等,2016]。先前的工作[Cooijmans等,2016]提出,通过为每个时间步保留独立的标准化统计数据,可以获得最佳的循环批标准化性能。作者表明,将循环批归一化层中的增益参数初始化为0.1,会对模型的最终性能产生重大影响。我们的工作还与体重归一化有关[Salimans和Kingma,2016]。在权重归一化中,使用输入权重的L2范数代替方差来归一化对神经元的求和输入。使用预期统计量应用权重归一化或批次归一化等效于对原始前馈神经网络进行不同的参数化。在路径归一化的SGD中研究了ReLU网络中的重新参数化[Neyshabur et al。,2015]。但是,我们提出的层归一化方法不是对原始神经网络进行重新参数化。因此,层归一化模型具有与其他方法不同的不变性,我们将在下一节中研究