是否有研究检查辍学与其他正则化的研究?


9

是否有发表的论文显示出神经网络正则化方法的差异,最好在不同的域(或至少在不同的数据集)上?

我之所以问是因为我目前的感觉是,大多数人似乎只使用辍学来实现计算机视觉的正则化。我想检查是否有理由(不)使用不同的正则化方式。

Answers:


3

两点:

  1. 通常也将辍学与神经网络集成进行比较。似乎具有训练和平均多个神经网络的性能优势。
  2. 辍学比正规化更容易校准。只有一个超参数是失落率,人们在训练时广泛使用0.5(然后在评估过程中使用1.0 :)),请参见此TensorFlow示例

无论如何,我对神经网络的实证研究有些怀疑。从网络拓扑到梯度下降优化过程再到激活函数以及要测试的任何内容(如正则化),都有太多的超参数需要微调。然后,整个过程都是随机的,并且通常性能提升非常小,以至于您几乎无法统计测试差异。许多作者甚至不理会统计测试。他们只是对交叉验证进行平均,然后宣布具有最高小数点增益的任何模型都将成为赢家。

您可能会发现一项促进辍学的研究仅与另一项促进正规化相抵触。

我认为这都归结为美学偏好。辍学恕我直言听起来比正常化更具生物学可行性。似乎也更容易校准。因此,当使用TensorFlow之类的框架时,我个人更喜欢它。如果必须经常使用我们自己的神经网络,则将使用正则化,因为它更易于实现。


0

绝对是 创作者本人杰弗里·欣顿的论文。https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf阅读。但我鼓励您自己实现这一差异。


2
本文没有明确比较不同的正则化方法,只是证明了辍学可以改善当时的最新水平(以前的结果很可能使用了其他形式的正则化,但未列出)。它还确实提到了maxnorm权重约束作为增加辍学的有效附加正则化工具。
尼尔·斯莱特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.