我正在阅读批处理规范化(BN)论文(1),但不了解需要使用移动平均值来跟踪模型的准确性,即使我接受这样做是对的,我也不明白他们到底在做什么。
据我所知(我是错的),该论文提到一旦模型完成训练,它将使用人口统计数据而不是小批量统计数据。在讨论了无偏估计(对我来说是切线的,并且不理解为什么如此讨论)之后,他们说:
取而代之的是使用移动平均值,我们在模型训练时跟踪模型的准确性。
那是令我困惑的部分。他们为什么要进行移动平均以估计模型的准确性以及在哪些数据集上?
通常人们会做些什么来估计其模型的泛化,他们只是跟踪模型的验证误差(并可能尽早停止其梯度下降以进行正则化)。但是,批处理规范化似乎在做完全不同的事情。有人可以澄清什么以及为什么做不同的事情吗?
1:Ioffe S.和Szegedy C.(2015年),
“批处理规范化:通过减少内部协变量偏移来加速深层网络训练”,
第32届国际机器学习会议论文集,法国里尔,2015年
。机器学习研究杂志: W&CP卷37