什么是“辍学”技术？

10

“辍学”方法的作用是什么？它如何改善神经网络的整体性能？

deep-network overfitting performance

— Kenorb
source

7

辍学意味着每个单独的数据点仅用于适应神经元的随机子集。这样做是为了使神经网络更像一个集成模型。

就是说，就像随机森林将许多决策树的结果平均在一起一样，您可以看到使用辍学训练的神经网络将许多个体神经网络的结果平均在一起（“结果”被理解为表示每一层的激活），而不仅仅是输出层）。

— 马修·格雷夫斯
source

4

提出神经网络缺失的原始论文¹为：缺失：一种防止神经网络过度拟合的简单方法。这个标题用一句话几乎解释了Dropout的作用。辍学是通过在训练阶段随机选择和删除神经网络中的神经元来实现的。请注意，在测试期间不应用辍学，并且作为预测的一部分，所得网络也不会辍学。

神经元的这种随机去除/脱落防止了神经元的过度共适应，并且这样做减少了网络过度拟合的可能性。

在训练过程中随机去除神经元还意味着在任何时间点，仅训练原始网络的一部分。这样的结果是您最终会训练多个子网，例如：

作为合奏者

正是由于对子网的这种反复训练，而不是整个网络，神经网络掉落这一概念才成为一种整体技术。整个子网的训练类似于训练众多相对较弱的算法/模型并将它们组合起来，形成一种比各个部分功能更强大的算法。

参考文献：

_{¹：Srivastava，Nitish等。“降落：防止神经网络过度拟合的简单方法。” 机器学习研究杂志15.1（2014）：1929-1958。}

— 齐利兹·穆道（Tshilidzi Mudau）
source

“ Dropout通过在神经网络中随机选择和删除神经元来工作”。实际上，只有神经网络的完全连接部分。

— 莫妮卡·赫德内克

2

我将尝试使用杰弗里·欣顿（Geoffrey Hinton）在辍学论文中的想法和他的Coursera课程回答您的问题。

“辍学”方法有什么目的？

具有大量参数的深度神经网络是非常强大的机器学习系统。但是，过度拟合是此类网络中的一个严重问题。大型网络的使用速度也很慢，因此难以通过在测试时结合许多不同大型神经网络的预测来处理过度拟合问题。辍学是一种解决此问题的技术。

所以这是一种正则化技术，可以解决过度拟合（高方差）的问题。

如何改善整体表现？
通过更好的概括性而不会陷入过度拟合的陷阱。

— 伊曼·米尔扎德（Iman Mirzadeh）
source

2

这里有一些很好的答案。对于辍学，我可以给出的最简单的解释是，在进行训练时，它会从网络中随机排除某些神经元及其连接，以阻止神经元过多地“共同适应”。它具有使每个神经元更普遍地应用的效果，并且对于阻止大型神经网络的过度拟合非常有用。

— Thegreenpizza
source