为什么较小的权重会导致正规化模型更简单？

27

大约一年前，我完成了Andrew Ng的机器学习课程，现在正在写我的高中数学探索性知识，介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。

正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方，再乘以一些正则化参数，来对权重的大小进行惩罚，从而实现这一目标。

现在，机器学习算法将旨在减小权重的大小，同时保持训练集的准确性。我们的想法是，我们将到达中间的某个点，在这里我们可以生成一个模型，该模型可以对数据进行泛化，而不会因为复杂度降低而无法适应所有随机噪声。

我的困惑是为什么我们要惩罚砝码的大小？为什么较大的权重创建更复杂的模型，为什么较小的权重创建更简单/平滑的模型？吴安德（Andrew Ng）在他的演讲中声称，这种解释很难讲，但我想我现在正在寻找这种解释。

Ng教授确实给出了一个示例，说明新的成本函数如何使要素的权重（即x ^ 3和x ^ 4）趋于零，从而降低了模型的程度，但这并不能创建一个完整的模型。说明。

我的直觉是，具有较小指数的特征将比具有较小指数的特征更易于接受（因为具有较小权重的特征就像函数的基础一样）。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。

— 卡普尔
source

2

这听起来像是一个需要“让我奶奶理解”的问题。

— EngrStudent-恢复莫妮卡2015年

2

@EngrStudent因为这正是我需要在我的Math IA中呈现它的方法，供高中数学老师和高中数学考官阅读。

— MCKapur 2015年

4

如果使用正则化，则不仅会最大程度地减少样本内错误，而且最小化。 $OutOfSampleError \le InSampleError + ModelComplexityPenalty$

更精确地说，对于假设，，其中是某个参数，通常是，是数据集中示例的数量，而是一些权重，取决于权重，。这被称为增强错误。现在，如果权重很小，则只能最小化上述功能。 $J_{aug}(h(x),y,\lambda,\Omega)=J(h(x),y)+\frac{\lambda}{2m}\Omega$ $h \in H$ $\lambda$ $\lambda \in (0,1)$ $m$ $\Omega$ $w$ $\Omega=w^Tw$

这是一些玩具的R代码

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

因此，我们不会惩罚整个假设空间，而是分别惩罚每个假设。我们有时通过其权重向量来指代假设。 $H$ $h$ $h$ $w$

至于为什么小权重伴随着较低的模型复杂性，让我们看一下以下假设：。总共我们得到了三个有效权重参数。现在，让我们将设置为非常小的值。这将模型的复杂度降低为：。代替了三个有效权重参数，我们仅剩下两个。 $h_1(x)=x_1 \times w_1 + x_2 \times w_2 + x_3 \times w_3$ ${w_1,\dotsc,w_3}$ $w_3$ $w_3=0$ $h_1(x)=x_1 \times w_1 + x_2 \times w_2$

— 吉姆·鲍伊
source

1

显然，如果权重减小到零，则模型的复杂度将降低，因为您可以删除项，从而可以删除计算操作。但这无助于解释为什么随着权重的值接近零而降低了模型的复杂性。任何人都可以用单词而不是公式来解释吗？

— greg7gkb

6

我不确定我是否真的知道我在说什么，但我会试一试。权重小的并不是防止过度拟合的原因（我认为），更多的是正则化更强地减少了模型空间。实际上，如果您愿意，可以通过将X值的L2范数减去10000000s的向量来规范化大约10000000。这也将减少过度拟合（当然，这样做还应有一些依据（即，也许您的Y值比X值的总和大10000000倍，但实际上没有人这样做，因为您可以重新缩放数据）。

偏差和方差都是模型复杂度的函数。这与VC理论有关，因此请看一下。可能模型的空间越大（即，所有参数可以基本取值），模型越可能过拟合。如果您的模型可以完成从直线到摆动各个方向的所有操作（例如正弦波也可以上下波动），那么很有可能会拾取并建模数据中的随机扰动，而这并不是由潜在的信号，但是在该数据集中恰好有机会的结果（这就是为什么获取更多数据有助于过拟合而不是欠拟合的原因）。

进行正则化时，基本上是在减少模型空间。这并不一定意味着更平滑/更平滑的函数具有更高的偏差和更少的方差。考虑一个线性模型，该模型覆盖有一个正弦波，该正弦波被限制为只有很小的振幅振荡，基本上不起作用（基本上是模糊线）。从某种意义上说，此函数是超级摆动的，但仅比线性回归稍微适合。更平滑/更平滑的函数趋向于具有更高的偏差和更少的方差的原因是因为我们作为数据科学家认为，如果我们减少了样本空间，则宁愿使用occam剃刀来保持更平滑，更简单的模型并丢弃该模型摇摆不定，到处晃动。首先扔掉摇摆不定的模型是有意义的，

像ridge回归这样的正则化减少了模型空间，因为距离零（或任何数字）越远越昂贵。因此，当模型面临考虑在数据中产生较小扰动的选择时，它更有可能出错而不是因为这（通常）会增加您的参数值。如果该扰动是由于随机机会造成的（即，您的x变量之一与您的y变量具有轻微的随机相关性），则模型将不考虑与非正规回归相关的因素，因为非正规化回归没有与之相关的成本Beta大小增加。但是，如果该扰动是由于真实信号引起的，则您的正则回归很可能会错过它，这就是为什么它具有更高的偏差（以及为什么要进行方差偏差折衷）的原因。

— www3
source

感谢您的周到解答！因此，是的，在第四段中，您声明“因此，当模型面临选择考虑数据中的微小扰动的选择时，它更有可能在没有扰动的情况下出错，因为（通常）这会增加参数值。”。这就是我要问的具体情况，为什么？谢谢！

— MCKapur 2015年

通过添加惩罚因子，可以减少模型具有更高的beta的可能性，因此模型空间更小。要记住的另一件事是，如果您的模型全是噪声，则由于不存在相关性，因此斜率可能为零（这是我摆动/平移参数时我没有想到的一件事，但我认为该参数仍然是通常是正确的。因此，如果存在扰动/关系，则可能会增加beta。因此，正则化惩罚了这一事实，并使回归无法适应那些摄动信号或噪声。

— www3

@ ww3我了解。但是，为什么更大的beta会导致更大的模型空间？

— MCKapur 2015年

我不确定您是否再需要此功能，但我想我会回答。无关紧要的beta并不重要。例如，您可以使用Y或1000 * Y进行回归，复杂度相同，但在第二种情况下beta会高1000。典型的正则化使得更难获得某些beta组合，例如使一个系数为1000，而另一个系数为-1000，而其他更平坦/更简单的系数（如全0）则更容易。这意味着，如果您的模型在数据中存在某些嘈杂的怪癖，则正规化的模型不太可能接受它。

— www3

继续，该模型将不会忽略所有嘈杂的怪癖，而只会忽略增加beta绝对值的怪癖。这意味着将更加强调降低beta值的怪癖。这样做是可以的，因为您可以绘制的摆动线比直线多得多（即，将二次方程与线性方程或常数方程进行比较）。因此，如果存在影响数据的嘈杂怪癖，那么它们比扁平/直率模型更容易使模型拟合更摇摆（因此更复杂）。

— www3

3

故事：
我奶奶走路，但不爬。奶奶也有一位奶奶以攀登乞力马扎罗山而闻名。

那休眠的火山很大。它比其底部高16,000英尺。（不要恨我的帝国单位。）有时它的顶部也有冰川。

如果您在没有冰川的一年中攀登并到达山顶，那么它是否与有冰川的山顶一样？海拔不同。您必须走的路是不同的。如果冰川厚度较大，该怎么办？这是否更成就了？每年约有35,000人尝试攀登，但只有约16,000人成功攀登。

应用：
因此，我将向奶奶解释权重的控制（又称最小化模型复杂性），如下所示：

奶奶，无论您是否知道，您的大脑都是一个了不起的思想家。如果我问你，在认为自己达到顶峰的16000人中有多少人确实做到了，那么你会说“所有人”。

如果我将传感器安装在所有30,000名登山者的鞋子中，并测量海拔高度，那么其中一些人的身高不会和其他人一样高，并且可能没有资格。当我这样做时，我将使用一个常数模型-我是说，如果高度不等于测得的最大高度的某个百分位，那么它就不是顶部。有些人跳到顶部。有些人越界并坐下。

我可以将纬度和经度添加到传感器中，并拟合一些高阶方程，也许我可以得到一个更好的拟合，并且可以有更多的人参加，也许恰好是尝试此活动的总人数的45％。

因此，假设明年是“大冰川”年或“无冰川”年，因为某些火山确实改变了地球的反照率。如果我从今年开始采用复杂而严谨的模型，并将其应用于明年攀登的人们，那么该模型将产生奇怪的结果。也许每个人都会“通过”，甚至过高而无法通过。也许没有人会通过，它会认为没有人真正完成攀登。尤其是当模型很复杂时，它往往不能很好地概括。它可能完全符合今年的“培训”数据，但是当出现新数据时，它的表现就会很差。

讨论：
当您限制模型的复杂性时，通常可以得到更好的概括而不会过度拟合。使用更简单的模型，可以更好地适应现实世界的变化，在其他所有条件相同的情况下，往往会得出更好的结果。

现在您有了一个固定的网络拓扑，因此您说的是“我的参数计数是固定的”-我的模型复杂度无法改变。废话。测量权重中的熵。当熵较高时，意味着某些系数比其他系数携带的“信息量”大得多。如果您的熵值很低，则意味着系数通常具有相似的“信息性”水平。信息量不一定是一件好事。在民主国家，你希望所有人平等，而像乔治·奥威尔这样的人“比其他人更平等”是衡量制度失败的标准。如果您没有充分的理由，则希望权重彼此非常相似。

就个人而言：我更喜欢“信息标准”之类的东西，而不是使用伏都教或启发式，因为它们使我获得可靠和一致的结果。 AIC，AICc和BIC是一些常见且有用的起点。重复分析以确定解决方案的稳定性或信息标准范围的结果是一种常见的方法。人们可能会考虑在权重的熵上设置一个上限。

— 工程师-恢复莫妮卡
source

2

有趣的是。步行者的角落：您写了《奥森·威尔斯》。拼写是Welles。我怀疑你一直都是乔治·奥威尔（动物农场）的意思。

— 尼克·考克斯

@NickCox-我病得很重。我的大脑运作不正常。是奥威尔。

— EngrStudent-恢复莫妮卡

我想了解为什么模型复杂度会随固定数量的参数（您的倒数第二段的想法）而变化，并且我没有运气来搜索“参数熵”或“ ols参数熵”。您是否使用了熵的概念是因为它很合适，或者它是模型参数属性的实际的，广为人知的名称？提前致谢。

— Alvaro Fuentes

1

@AlvaroFuentes-从这个意义上说，熵来自信息论。这是维基百科的文章。将权重视为一个列表，您可以使用核方法近似概率密度来计算所有权重系统的熵。您可以查看每个神经元的平均熵，以更大规模地比较整个神经元。

— EngrStudent-恢复莫妮卡

0

下面是一个简单的直觉。请记住，对于正则化功能，应该对其进行标准化，以使其具有近似值。一样的规模。

假设最小化函数只是误差平方和：

$SSE$

添加更多功能可能会减少此，尤其是从嘈杂的池中选择该功能时。该功能偶然会减少，从而导致过拟合。 $SSE$ $SSE$

现在考虑这种情况下的正则化，即LASSO。然后将要最小化的功能

$SSE + \lambda \Sigma |\beta|$

现在添加额外的功能会导致额外的损失：绝对系数的总和变大！SSE的减少应超过增加的额外罚款。不再可能免费添加其他功能。

特征标准化和惩罚绝对系数之和的组合限制了搜索空间，从而减少了过拟合。

现在，LASSO：

$SSE + \lambda \Sigma |\beta|$

倾向于将系数设为零，而岭回归：

$SSE + \lambda \Sigma \beta^2$

倾向于按比例缩小系数。这可以看作是惩罚功能类型的副作用。下图对此有所帮助：

在实践中，正则化惩罚函数会为参数提供一个“预算”，如上图青色区域所示。

左图是LASSO，功能很可能会碰到轴上的空间。将其中一个系数设为零，然后根据预算缩小另一个系数。在右侧，该功能可能会碰到轴，或多或少地使预算分散在参数上：导致两个参数缩小。 $SSE$

图片来自https://onlinecourses.science.psu.edu/stat857/node/158

总结：正则化会惩罚添加额外的参数，并且根据正则化的类型将缩小所有系数（岭），或者将多个系数设置为0，同时在预算允许的范围内保持其他系数不变（套索）

— d
source

1

您只是在解释套索和岭回归之间的区别，但问题是询问正则化导致较低复杂度的原因。

— 索比，2015年

请阅读本节：“现在添加额外的功能会导致额外的损失：绝对系数的总和变大！SSE的减少应超过所增加的额外损失。不再无法免费添加额外的功能。”

— spdrnl

这种解释仅适用于正则化器，它不仅需要稀疏，还需要更多。例如，的值在学习模型中的所有参数值都不为零。但是仍然在那种情况下控制模型的复杂性。您将如何解释？同样，对于正则化。

L_{1}

$L_1$

\exists λ

$\exists \lambda$

λ

$\lambda$

L_{2}

$L_2$

— 索比

要点是，添加参数的惩罚类型将以不同的方式影响参数。在实践中，您会得到一个模型，该模型的参数不太适合训练数据：这是目标。

— spdrnl

0

通过将高斯噪声添加到输入中，学习模型的行为将类似于L2罚正则器。

要了解原因，请考虑线性回归，其中将iid噪声添加到要素中。现在，损失将是误差+权重贡献的函数。

查看衍生工具：https : //www.youtube.com/watch?v=qw4vtBYhLp0

— 哈南·史汀加特
source

0

我记得在大学课堂上，我的老师曾说过惩罚大参数可以减少过度拟合，因为它可以防止模型对数据的特定特征施加过多的权重，这会导致过度拟合，因为模型只是记住数据的某些特定特征并将其与标签，而不是尝试学习一般规则。

— 荣兹
source