根据LeCun等(1998)的“ Efficient Backprop”,优良作法是对所有输入进行归一化,使它们以0为中心并在最大二阶导数范围内。因此,例如,对于“ Tanh”功能,我们将使用[-0.5,0.5]。随着黑森州变得更稳定,这将有助于反向传播进程。
但是,我不确定如何处理max(0,x)的整流神经元。(从那时起,还使用逻辑函数,我们想要类似[0.1,0.9]的东西,但是它并不以0为中心)
根据LeCun等(1998)的“ Efficient Backprop”,优良作法是对所有输入进行归一化,使它们以0为中心并在最大二阶导数范围内。因此,例如,对于“ Tanh”功能,我们将使用[-0.5,0.5]。随着黑森州变得更稳定,这将有助于反向传播进程。
但是,我不确定如何处理max(0,x)的整流神经元。(从那时起,还使用逻辑函数,我们想要类似[0.1,0.9]的东西,但是它并不以0为中心)
Answers:
据我所知,与您所寻找的最接近的是Google研究人员最近发表的这篇文章:批量规范化:通过减少内部协变量漂移来加速深度网络训练。
批处理规范化(BN)的作用如下:
因此,BN将“原始”(阅读:应用非线性之前)的激活输出标准化为均值为零,方差为1,然后应用学习的仿射变换,最后应用非线性。从某种意义上讲,我们可以将其解释为允许神经网络学习非线性的适当参数化输入分布。
,他们实际上学会了一种转换,他们使用身份转换作为参考或比较基准。微软的合著者认为拥有此参考或基线有助于解决问题。我认为,对于BN和最初的标准化步骤是否正在发生类似的事情,我不为所动。
一个特别有趣的结果是,使用Batch Normalization,Google团队能够获得一个tanh Inception网络来在ImageNet上进行训练并获得相当有竞争力的结果。Tanh是一个饱和的非线性,由于它们的饱和度/消失梯度问题,很难让这些类型的网络学习。但是,使用批归一化,可以假定网络能够学习一种转换,该转换将激活输出值映射到tanh非线性的非饱和状态。
他们甚至引用了您提到的同一批Yann LeCun类事实,以此作为批处理规范化的动机。