什么是规则和正则化？

12

在学习机器学习时，我越来越多地听到这些话。实际上，有人在方程正则性方面获得了菲尔兹奖。因此，我想这是一个从统计物理/数学到机器学习的术语。当然，我问的很多人都无法直观地解释它。

我知道诸如dropout之类的方法有助于正则化（=>他们说它减少了过度拟合，但是我真的不明白这是什么：如果仅减少过度拟合，为什么不只称其为anti-overfit方法=>我想的更多，因此这个问题）。

如果您能解释一下，我将非常感激（我想天真的ML社区也将如此！）

您如何定义规律性？什么是规律性？
正则化是确保规律性的一种方法吗？即捕获规律？
为什么像dropout这样的集合方法，归一化方法都声称要进行正则化？
为什么这些（正则性/正则化）出现在机器学习中？

非常感谢你的帮助。

— 拉斐尔
source

8

在几乎所有的机器学习算法中，我们都试图从有限的训练数据样本中学习正则化。

我将尝试通过解释正则化概念的起源来间接回答您的特定问题。完整的理论要详细得多，该解释不应被解释为是完整的，而只是为了指出正确的方向进行进一步的研究。由于您的主要目的是获得对正则化的直观理解，因此我对Simon Haykin的第三版“神经网络和学习机”的第7章进行了总结和简化，并在此过程中省略了一些细节。

让我们重新审视具有自变量和因变量的监督学习问题，因为它试图找到一个能够将输入X“映射”到输出Y 的函数 $x_i$ $y_i$ $f$

更进一步，让我们了解Hadamard关于“适当提出”问题的术语-如果满足以下三个条件，则该问题提出适当：

对于每个输入和输出存在。 $x_i$ $y_i$
对于一对输入和，当且仅当，。 $x_1$ $x_2$ $f(x_1) = f(x_2)$ $x_1 = x_2$
映射是连续的（稳定性标准） $f$

对于监督学习，可能会违反这些条件，因为：

对于给定的输入，可能不存在不同的输出。
训练样本中可能没有足够的信息来构建唯一的输入-输出映射（因为在不同的训练样本上运行学习算法会导致不同的映射功能）。
数据中的噪声会给重建过程增加不确定性，这可能会影响其稳定性。

为了解决此类“不适定”问题，Tikhonov提出了一种正则化方法，以通过包含嵌入解决方案先验信息的非负函数来稳定解决方案。

先验信息的最常见形式涉及以下假设：输入-输出映射函数是平滑的-即相似的输入产生相似的输出。

Tikhnov的正则化理论将正则化项添加到成本函数（要最小化的损失函数）中，其中包括正则化参数和映射的假定形式。的值在0到之间选择。值为0表示完全根据训练样本确定解决方案；的值表示训练示例不可靠。 $\lambda$ $f$ $\lambda$ $\infty$ $\infty$

因此，选择正则化参数并对其进行优化，以通过在模型中加入适量的先验信息，在模型偏差和模型方差之间实现所需的平衡。 $\lambda$

这种正则化成本函数的一些示例是：

线性回归：

$J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

Logistic回归：

$J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

其中，是我们为标识的系数，是的估计值。 $\theta$ $x$ $h_\theta(x)$ $y$

每个示例中的第二个求和项是正则项。由于该术语始终是非负值，因此它使优化器无法达到成本函数的全局最小值。此处显示的术语形式为正则化。正则化函数的形式有很多变体，常用形式有：套索，弹性网和岭回归。这些都有其自身的优缺点，有助于确定它们的最佳适用性。 $L_2$

应用正则化的最终效果是减少模型复杂度，从而减少过度拟合。其他正则化方法（在上面的示例中未列出）包括通过删除节点以制作更简单的树来修改结构模型（例如回归/分类树，增强树等）。最近，通过丢弃神经网络中神经元之间的连接，将其应用于所谓的“深度学习”。

对Q3的一个具体答案是，某些集合方法（例如，Random Forest（或类似的投票方案））由于其固有的方法而实现了正则化，即从不规则树的集合中投票和选择响应。即使个别树已过度拟合，“平均”其结果的过程也阻止了合奏过度拟合到训练集。

编辑：

正则性的概念属于公理化集合论，您可以参考本文以获得指针-en.wikipedia.org/wiki/Axiom_of_regularity，如果您对详细信息感兴趣，可以进一步探讨该主题。

关于神经网络的正则化：在运行反向传播算法时调整权重时，将正则化项以与线性和逻辑回归示例相同的方式添加到成本函数中。因此，添加正则项可以阻止反向传播达到全局最小值。

描述神经网络的批量归一化的文章是- 批量归一化：通过减少内部协变量偏移来加速深度网络训练，艾菲，塞格迪，2015。众所周知，当输入变量标准化时，反向传播训练神经网络的效果更好。在本文中，作者对随机梯度下降中使用的每个小批量应用归一化，以避免在训练神经网络的多层时出现“消失梯度”的问题。他们的论文中描述的算法将在每个批次中为每个激活层计算的平均值和方差视为在小批量SGD中优化的另一组参数（除了NN权重）。然后使用整个训练集对激活进行标准化。您可以参考他们的论文以获取有关此算法的完整详细信息。通过使用此方法，他们能够避免使用辍学进行正则化，因此他们声称这是另一种正则化。

— Sandeep S.Sandhu
source

感谢您的出色回答。您能从数学上解释一下标准化等方法如何实现正规化吗？在古德费洛（Goodfellow）的一次演讲中，他说，任何可微的东西都可以充当神经网络的正则化器。另外，您知道什么规律吗？它们只是意味着模式，还是背后有一些数学运算？再次感谢。

— 拉斐尔

谢谢回复。我不记得那个话题了。在神经网络中，我们添加了诸如批归一化之类的层。我想知道他们有助于正规化吗？

— 拉斐尔

编辑以回答您的评论，并添加先前评论中给出的答案。

— Sandeep S. Sandhu

3

问题1

我不知道任何规范的定义，您的问题表明该术语的使用含义不同。让我们从简单的示例开始（它将回答问题2）。

问题2

在岭回归可能是一个很好的起点。这是一种规整方法，可以避免奇异矩阵引起的问题。

但是，此处使用梯度增强方法（每个示例）定义的“正则化参数”是为了确保模型的低复杂性。

问题3

归一化为正则化还有另一种含义（并且该术语颇具误导性）。它将一个复杂的问题“从梯度下降的角度来看”变成了一个简单的问题。尽管不需要校准神经网络，但在校准过程中确实有帮助。（但是，请注意，如果我们可以找到任意函数的全局极值，则无需进行标准化）

问题4

正则化（作为降低模型复杂性的一种方式）用于减少过拟合。模型越不复杂，过拟合的可能性就越小。

在旁边

S. Watanabe在其研究中严格使用了该术语。

— RUser4512
source