我是卷积神经网络的新手,只是对特征图以及如何在图像上进行卷积以提取特征有所了解。我很高兴知道在CNN中应用批处理规范化的一些细节。
我阅读了https://arxiv.org/pdf/1502.03167v3.pdf这篇论文,可以理解对数据应用的BN算法,但最后他们提到在对CNN进行应用时需要稍作修改:
对于卷积层,我们还希望归一化服从卷积属性-以便以相同的方式对同一要素图的不同元素在不同位置进行归一化。为了实现这一目标,我们在所有位置上以小批量的方式联合标准化了所有激活。在Alg。在图1中,我们将B作为特征图上所有小批量和空间位置的所有值的集合–因此,对于大小为m的小批量和大小为p×q的特征图,我们使用effec -大小为m'= | B |的小批量生产 = m·pq。我们每个特征图而不是每个激活都学习一对参数γ(k)和β(k)。海藻 对图2进行类似的修改,以便在推理期间BN变换将相同的线性变换应用于给定特征图中的每个激活。
当他们说“要以相同的方式对同一要素图的不同元素在不同位置进行标准化时,我完全感到困惑 ”
我知道要素地图的含义,每个要素地图中的权重都是不同的元素。但是我不明白什么是位置或空间位置。
我根本无法理解下面的句子 “在Alg。1中,我们让B为跨越小批量和空间位置的要素的要素图中所有值的集合”
如果有人能用更简单的方式详细阐述并向我解释,我将感到非常高兴
B*H*W
值的均值和方差,而不是B*H*C
值。请参阅conv层中Batchnorm之后的第一段。无论哪种方式,+ 1。