我希望以下摘录能够深入了解我的问题。这些来自http://neuralnetworksanddeeplearning.com/chap3.html
然后学习逐渐放慢。最终,在时代280左右,分类精度几乎停止提高。稍后的时期仅在时期280处的准确性值附近看到小的随机波动。这与之前的图相反,在早期的图中与训练数据相关的成本继续平稳下降。如果仅考虑这一成本,看来我们的模型仍在“变得更好”。但是测试精度结果表明,改进是一种幻想。就像费米不喜欢的模型一样,在280期之后,我们的网络所学的内容不再推广到测试数据。因此,这不是有用的学习。我们说,网络在第280代之后过度拟合或过度训练。
我们正在训练一个神经网络,并且成本(在训练数据上)一直下降到第400阶段,但是在280阶段之后分类精度变得固定(除非有一些随机波动),因此我们得出结论,该模型在280阶段之后过度拟合了训练数据。
我们可以看到测试数据的成本在直到第15个时期之前一直在提高,但此后它实际上开始变得更糟,即使训练数据的成本在继续提高。这是我们的模型过度拟合的另一个迹象。但是,这构成了一个难题,那就是我们是否应该将第15或280时期视为过度拟合将主导学习的点?从实践的角度来看,我们真正关心的是提高测试数据的分类准确性,而测试数据的成本只不过代表了分类准确性。因此,将时代280视为过度拟合是控制我们神经网络学习的主要途径。
与以前相比,将测试数据的分类准确性与培训成本进行对比,我们现在将测试数据的成本与培训成本进行比较。
然后,本书继续解释为什么280是过度拟合开始的正确时期。这就是我的问题。我无法解决这个问题。
我们要求模型最小化成本,因此成本是它用来衡量自身正确分类强度的度量。如果我们认为280是过度拟合开始的正确时机,我们是否没有以某种方式创建一个偏向模型,尽管该偏向模型虽然可以对特定测试数据进行更好的分类,但是却以较低的置信度做出决策,因此更倾向于偏离从测试数据上显示的结果来看?