数据集大小的过度拟合/不足拟合


11

在下图中,

  • x轴=> 数据集大小
  • y轴=> 交叉验证得分

在此处输入图片说明

  • 红线用于培训数据

  • 绿线用于测试数据

在我所指的教程中,作者说红线绿线重叠的点表示,

收集更多数据不太可能提高泛化性能,并且我们处于一个可能无法适应数据的区域。因此,尝试使用容量更大的模型是有意义的

我不太理解粗体字的含义以及它的发生方式。

感谢任何帮助。


什么是红线和绿线?
Kasra Manshaei

1
@KasraManshaei:我已经更新了问题。
tharindu_DG

1
如果可能,请将链接添加到教程。将有助于我们更好地理解答案和上下文:)
Dawny33

@ Dawny33:这是一个视频教程,上传它可能会违反版权问题。:)
tharindu_DG

Answers:


6

因此,欠拟合意味着您仍然具有改善学习的能力,而过拟合意味着您所使用的能力超过了学习所需的能力。

绿色区域是测试错误不断增加的地方,即您应该继续提供容量(数据点或模型复杂性)以获得更好的结果。绿线越多,变得越平坦,即您将达到所提供的容量(即数据)足够且更好地尝试提供其他类型的容量(即模型复杂性)的程度。

如果它不能提高甚至降低测试成绩,则意味着数据复杂性的组合是最佳的,您可以停止培训。


谢谢你的回答。我的模棱两可。-在图形末尾,绿线和红线会聚。这是否意味着我们有足够的数据用于模型?-是否可以从测试集中获得比训练集更高的准确性?-假设我们有一个更好的模型,该图应该是什么样?
tharindu_DG

1
“这是否意味着我们有足够的数据来支持我们的模型?” 那正是我写的。是的,您有足够的数据,因此如果要改进,应尝试增加复杂性。数据就足够了。“是否有可能从测试集中获得比训练集更高的准确性?” 我从未见过这样的事情。这可能会在单个实验中发生,但通常不会发生。该问题可以翻译为“我能比我所知道的更多吗?” 答案是“当然不会!”
Kasra Manshaei

1
“让我们说我们有一个更好的模型,该图应该是什么样?” 我假设(您尝试让我知道我是否正确:))无论是培训还是测试都可以改善或不改善。训练可能会改善而测试失败,但反之则不然,并且两者都有可能改善一段时间,然后测试下降,这被称为过度拟合。您应该在点测试线开始下降时停止训练
Kasra Manshaei 2016年

5

尽管Kasra Manshaei给出了一个很好的一般答案(+1),但我想举一个简单易懂的例子。

f:[0,1]R欠佳

因此,让我们走另一条路:假设您有1000个数据点。知道一点数学,您就选择了999度的多项式。现在,您可以完美地拟合训练数据了。但是,您的数据可能恰好适合数据。例如,请参阅(来自我的博客

在此处输入图片说明

在这种情况下,您还有其他模型也可以完美拟合数据。显然,蓝色模型似乎在数据点之间有点不自然。模型本身可能无法很好地捕获分布类型,因此将模型限制为更简单的模型可能会有所帮助。这可能是过度拟合的一个例子。


1
非常好@moose!(+1)以了解解释
Kasra Manshaei

0

在您的情况下,-训练曲线和测试曲线之间的间隙非常小(或没有间隙),表明模型具有较高的偏差/欠拟合,解决方案:需要选择更复杂的模型;-为了完整起见,当列车曲线和测试曲线之间的差距非常大时,需要增加相反的情况,这表明方差/过拟合很大,解决方案:a)继续增加数据集大小;b)选择不太复杂的模型,c)进行正则化。


0

您可以执行以下任何/所有操作:

1)更改要输入模型的特征

2)选择其他模型进行处理

3)将更多数据加载到模型中(可能不是您的选择,但是通常这是一个选择)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.