噪声如何影响泛化?


Answers:


9

数据中的噪声(合理数量)可能有助于网络更好地推广。有时,其效果相反。它部分取决于噪声的种类(“真实”与人为)。

关于ANNAI常见问题解答提供了很好的概述。摘抄:

实际数据中的噪声永远不是一件好事,因为它限制了无论训练集有多广泛,都可以实现的泛化精度。另一方面,在训练过程中,将人工噪声(抖动)注入到输入中是提高平滑功能泛化能力的几种方法之一。

在某些领域,例如计算机视觉,通常会通过复制一些样本并添加一些噪声或其他变换来增加训练集的大小。


8

我们通常认为机器学习模型是对训练数据的两个不同部分进行建模-潜在的通用真相(信号)和特定于该数据集的随机性(噪声)。

装配这两个零件都可以提高训练集的准确性,但是装配信号也可以提高测试集的准确性(和实际性能),而装配噪声则可以降低两者。因此,我们使用诸如正则化和丢包之类的方法以及类似技术,以使其更难以适应噪声,从而更可能适应信号。

只是增加训练数据中的噪声量就是这样一种方法,但似乎不太有用。例如,将随机抖动与对抗性增强进行比较;前者将缓慢而间接地提高鲁棒性,而后者将显着而直接地提高鲁棒性。


1

PS:这里已经提供了一些很好的答案,我只是在补充这些答案,希望有人会发现这个有用:

向数据集引入噪声确实可以对模型产生积极影响。事实上,这可以看作是做同样的事情,你通常会做的与regularizers辍学。一些这样的例子是祖尔at.alCires¸at.al其中作者成功地噪声引入到数据集,以减少过度拟合。

问题在于知道多少噪音太大。如果添加的噪声过多,则可能导致数据集无用,因为生成的数据集可能不再与原始数据集具有足够的相似性,因此您可能还需要在完全不同的数据集上进行训练。因此,可以看到过多的噪声会导致装配不足,就像极高​​的漏失率一样。

俗话说; 改变平衡是生活的乐趣:)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.