在几乎所有的机器学习算法中,我们都试图从有限的训练数据样本中学习正则化。
我将尝试通过解释正则化概念的起源来间接回答您的特定问题。完整的理论要详细得多,该解释不应被解释为是完整的,而只是为了指出正确的方向进行进一步的研究。由于您的主要目的是获得对正则化的直观理解,因此我对Simon Haykin的第三版“神经网络和学习机”的第7章进行了总结和简化,并在此过程中省略了一些细节。
让我们重新审视具有自变量和因变量的监督学习问题,因为它试图找到一个能够将输入X“映射”到输出Y 的函数xiyif
更进一步,让我们了解Hadamard关于“适当提出”问题的术语-如果满足以下三个条件,则该问题提出适当:
- 对于每个输入和输出存在。xiyi
- 对于一对输入和,当且仅当,。x1x2f(x1)=f(x2)x1=x2
- 映射是连续的(稳定性标准)f
对于监督学习,可能会违反这些条件,因为:
- 对于给定的输入,可能不存在不同的输出。
- 训练样本中可能没有足够的信息来构建唯一的输入-输出映射(因为在不同的训练样本上运行学习算法会导致不同的映射功能)。
- 数据中的噪声会给重建过程增加不确定性,这可能会影响其稳定性。
为了解决此类“不适定”问题,Tikhonov提出了一种正则化方法,以通过包含嵌入解决方案先验信息的非负函数来稳定解决方案。
先验信息的最常见形式涉及以下假设:输入-输出映射函数是平滑的-即相似的输入产生相似的输出。
Tikhnov的正则化理论将正则化项添加到成本函数(要最小化的损失函数)中,其中包括正则化参数和映射的假定形式。的值在0到之间选择。值为0表示完全根据训练样本确定解决方案;的值表示训练示例不可靠。λfλ∞∞
因此,选择正则化参数并对其进行优化,以通过在模型中加入适量的先验信息,在模型偏差和模型方差之间实现所需的平衡。λ
这种正则化成本函数的一些示例是:
线性回归:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Logistic回归:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
其中,是我们为标识的系数,是的估计值。θxhθ(x)y
每个示例中的第二个求和项是正则项。由于该术语始终是非负值,因此它使优化器无法达到成本函数的全局最小值。此处显示的术语形式为正则化。正则化函数的形式有很多变体,常用形式有:套索,弹性网和岭回归。这些都有其自身的优缺点,有助于确定它们的最佳适用性。L2
应用正则化的最终效果是减少模型复杂度,从而减少过度拟合。其他正则化方法(在上面的示例中未列出)包括通过删除节点以制作更简单的树来修改结构模型(例如回归/分类树,增强树等)。最近,通过丢弃神经网络中神经元之间的连接,将其应用于所谓的“深度学习”。
对Q3的一个具体答案是,某些集合方法(例如,Random Forest(或类似的投票方案))由于其固有的方法而实现了正则化,即从不规则树的集合中投票和选择响应。即使个别树已过度拟合,“平均”其结果的过程也阻止了合奏过度拟合到训练集。
编辑:
正则性的概念属于公理化集合论,您可以参考本文以获得指针-en.wikipedia.org/wiki/Axiom_of_regularity,如果您对详细信息感兴趣,可以进一步探讨该主题。
关于神经网络的正则化:在运行反向传播算法时调整权重时,将正则化项以与线性和逻辑回归示例相同的方式添加到成本函数中。因此,添加正则项可以阻止反向传播达到全局最小值。
描述神经网络的批量归一化的文章是- 批量归一化:通过减少内部协变量偏移来加速深度网络训练,艾菲,塞格迪,2015。众所周知,当输入变量标准化时,反向传播训练神经网络的效果更好。在本文中,作者对随机梯度下降中使用的每个小批量应用归一化,以避免在训练神经网络的多层时出现“消失梯度”的问题。他们的论文中描述的算法将在每个批次中为每个激活层计算的平均值和方差视为在小批量SGD中优化的另一组参数(除了NN权重)。然后使用整个训练集对激活进行标准化。您可以参考他们的论文以获取有关此算法的完整详细信息。通过使用此方法,他们能够避免使用辍学进行正则化,因此他们声称这是另一种正则化。