解释它的简单方法是,正则化有助于使其不适应噪声,就确定信号的形状而言,它的作用不大。如果您将深度学习视为巨大的光荣函数逼近器,那么您会意识到,需要大量数据来定义复杂信号的形状。
如果没有噪声,则NN复杂度的增加将产生更好的近似值。NN的大小不会受到任何惩罚,在每种情况下越大越好。考虑泰勒(Taylor)逼近,对于非多项式函数,更多的项总是更好的选择(忽略数值精度问题)。
由于您开始适应噪音,因此在有噪音的情况下会分解。因此,这里有正则化的帮助:它可以减少对噪声的拟合,从而使我们可以构建更大的 NN来拟合非线性问题。
以下讨论对我的答案不是必不可少的,但我的部分补充是回答一些评论并激发上面答案的主体。基本上,我剩下的答案就像是汉堡包里的法国大火,您可以跳过它。
(Ir)相关案例:多项式回归
让我们来看一个多项式回归的玩具示例。对于许多函数来说,它也是一个很好的近似器。我们将在区域中查看函数。从下面的泰勒级数可以看出,7阶展开式已经非常合适,因此我们可以预期7+阶的多项式也非常合适:X ∈ (- 3 ,3 )罪(x )X ∈ (- 3 ,3 )
接下来,我们将逐步将具有较高阶数的多项式拟合到包含7个观测值的很小的,非常嘈杂的数据集:
我们可以观察到很多人知道的关于多项式的信息:它们是不稳定的,并且随着多项式阶数的增加而开始剧烈振荡。
但是,问题不在于多项式本身。问题是噪音。当我们将多项式拟合到噪声数据时,拟合的一部分是针对噪声,而不是信号。这是适用于相同数据集的相同精确多项式,但噪声已完全消除。适合的!
请注意,视觉上非常适合阶数6。这并不奇怪,因为我们只有7个观测值才能唯一地识别阶数6多项式,并且从上面的泰勒逼近图看到,阶数6已经非常好地近似于在我们的数据范围内。罪(x )
还要注意,高阶多项式不适合6阶,因为没有足够的观察来定义它们。因此,让我们看一下100次观察的结果。在下面的图表中,您将看到更大的数据集如何使我们能够拟合高阶多项式,从而实现更好的拟合!
很好,但问题在于我们通常会处理嘈杂的数据。如果您将相同的数据拟合到100个非常嘈杂的数据中,会发现会发生什么,请参见下表。回到正题:高阶多项式产生可怕的振荡拟合。因此,增加数据集并不能帮助增加模型的复杂性以更好地解释数据。同样,这是因为复杂模型不仅更适合信号的形状,而且也更适合噪声的形状。
最后,让我们尝试对此问题进行一些la脚的正则化。下图显示了应用于9阶多项式回归的正则化(具有不同的惩罚)。将此与上面的9阶(幂)多项式拟合进行比较:在正则化的适当级别上,可以将高阶多项式拟合到噪声数据。
以防万一还不清楚:我不建议这样使用多项式回归。多项式非常适合局部拟合,因此分段多项式可能是一个不错的选择。使它们适合整个域通常不是一个好主意,因为它们对噪声很敏感,这确实可以从上面的图中看出。在这种情况下,噪声是数字噪声还是其他来源的噪声并不重要。噪声就是噪声,多项式会对它产生热情的反应。