增加训练数据对整个系统的准确性有什么影响?


16

有人可以为我总结一些可能的例子,在什么情况下增加培训数据可以改善整个系统?我们何时发现添加更多训练数据可能会过拟合数据,而对测试数据却没有很好的准确性?

这是一个非常特殊的问题,但是如果您要针对特定​​情况回答特定问题,请这样做。


只是想知道-这是关于50/50的训练/测试是否比75-25更好?
概率

Answers:


22

在大多数情况下,更多的数据通常更好。过度拟合本质上是学习训练数据中出现的虚假相关性,而不是现实世界中的虚假相关性。例如,如果您只考虑我的同事,则可能会学会将“命名为Matt”与“有胡子”相关联。它是100%有效的(,甚至!),但通常显然不正确。增加数据集的大小(例如,到整个建筑物或城市),应减少这些虚假的相关性并提高学习者的表现。ñ=4

就是说,一种情况是,如果您的其他培训数据嘈杂或与您尝试预测的数据不匹配,那么更多数据就无济于事,甚至可能会受到伤害。我曾经做过一次实验,将不同的语言模型[*]插入语音激活的餐厅预订系统。我改变了培训数据的数量及其相关性:在一个极端情况下,我精心挑选了少量的人员预订表,非常适合我的应用程序。另一方面,我有一个模型,该模型是从大量经典文献中估算的,更准确的语言模型,但与应用程序的匹配性差得多。令我惊讶的是,小而相关的模型大大优于大而无关的模型。


当训练集的大小接近模型参数的数量时,也会发生 一种令人惊讶的情况,称为双重下降。在这些情况下,测试风险首先随着训练集大小的增加而降低,随着添加更多训练数据而暂时增加,最后随着训练集的持续增长而再次开始降低。这种现象在神经网络文献中已有25年的报道(见Opper,1995),但也发生在现代网络中(Advani和Saxe,2017)。有趣的是,即使是线性回归,也会发生这种情况,尽管SGD 对此进行了拟合(Nakkiran,2019年)。这种现象尚未完全理解,并且在很大程度上具有理论意义:我当然不会将其用作不收集更多数据的理由(尽管如果n == p且性能出乎意料的不好,我可能会摆弄训练集的大小) )。


[*]语言模型只是看到给定单词序列的概率,例如。它们对于建立中立的语音/字符识别器至关重要。Pwñ='快', wñ+1个='棕色', wñ+2='狐狸'



12

注意事项:通过添加更多数据(行或示例,而不是列或要素),您过度拟合的机会减少而不是增加。

两段摘要如下所示:

  • 添加更多示例,可以增加多样性。它减少了泛化误差,因为您的模型通过在更多示例中进行训练而变得更加泛泛。
  • 添加更多的输入要素或列(为固定数量的示例)可能会增加过度拟合,因为更多的要素可能无关或多余,并且有更多的机会使模型复杂化以适合手头的示例。

有一些比较简单的标准可以比较模型的质量。以AICBIC为例。

它们都表明,添加更多的数据总是可以使模型更好,而将参数的复杂性添加到最佳状态之外则会降低模型的质量。


1

增加训练数据总是会增加信息,并且应该提高拟合度。如果您然后仅根据用于拟合的训练数据评估分类器的性能,就会遇到困难。这产生了乐观的偏见评估,这就是为什么使用留一法交叉验证或自举的原因。


1

理想情况下,一旦有了更多的训练示例,测试误差就将降低(模型差异减少,这意味着我们不太适合),但是理论上,更多数据并不总是意味着您将拥有更准确的模型,因为高偏差模型不会从更多的培训实例中受益

参见此处:在机器学习中,什么是更好的:更多数据或更好的算法

高方差 –可以很好地表示训练集的模型,但是有可能过度适合嘈杂或无代表性的训练数据。

高偏差 –一种较简单的模型,通常不会过度拟合,但可能会拟合训练数据,无法捕获重要的规律性。


-1

频谱分析将有助于分析样本的多样性,实际上,如果不添加“真实样本”(通常称为过拟合),则会在建模中学习到虚假信息。通常,如果按样本提供的信息较少,则鼓励提供更多真实的样本,以确保有用的信息可用于测试。祝好运!


3
这个答案很难理解。可能是从其他语言进行了机器翻译吗?您是否可以通过某种方式对其进行审核和编辑,以传达您想与我们分享的想法?
ub

我不明白您的回应。
user162580

3
看来我们遇到语言问题:您张贴的字词在英语中没有意义。您可以更改它们以使其有意义吗?
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.