在下图中,
- x轴=> 数据集大小
- y轴=> 交叉验证得分
红线用于培训数据
绿线用于测试数据
在我所指的教程中,作者说红线和绿线重叠的点表示,
收集更多数据不太可能提高泛化性能,并且我们处于一个可能无法适应数据的区域。因此,尝试使用容量更大的模型是有意义的
我不太理解粗体字的含义以及它的发生方式。
感谢任何帮助。
在下图中,
红线用于培训数据
绿线用于测试数据
在我所指的教程中,作者说红线和绿线重叠的点表示,
收集更多数据不太可能提高泛化性能,并且我们处于一个可能无法适应数据的区域。因此,尝试使用容量更大的模型是有意义的
我不太理解粗体字的含义以及它的发生方式。
感谢任何帮助。
Answers:
因此,欠拟合意味着您仍然具有改善学习的能力,而过拟合意味着您所使用的能力超过了学习所需的能力。
绿色区域是测试错误不断增加的地方,即您应该继续提供容量(数据点或模型复杂性)以获得更好的结果。绿线越多,变得越平坦,即您将达到所提供的容量(即数据)足够且更好地尝试提供其他类型的容量(即模型复杂性)的程度。
如果它不能提高甚至降低测试成绩,则意味着数据复杂性的组合是最佳的,您可以停止培训。
尽管Kasra Manshaei给出了一个很好的一般答案(+1),但我想举一个简单易懂的例子。
欠佳。
因此,让我们走另一条路:假设您有1000个数据点。知道一点数学,您就选择了999度的多项式。现在,您可以完美地拟合训练数据了。但是,您的数据可能恰好适合数据。例如,请参阅(来自我的博客)
在这种情况下,您还有其他模型也可以完美拟合数据。显然,蓝色模型似乎在数据点之间有点不自然。模型本身可能无法很好地捕获分布类型,因此将模型限制为更简单的模型可能会有所帮助。这可能是过度拟合的一个例子。
在您的情况下,-训练曲线和测试曲线之间的间隙非常小(或没有间隙),表明模型具有较高的偏差/欠拟合,解决方案:需要选择更复杂的模型;-为了完整起见,当列车曲线和测试曲线之间的差距非常大时,需要增加相反的情况,这表明方差/过拟合很大,解决方案:a)继续增加数据集大小;b)选择不太复杂的模型,c)进行正则化。