我知道,为了访问分类器的性能,我必须将数据分为训练/测试集。但是读这个:
在评估估算器的不同设置(“超参数”)(例如必须为SVM手动设置的C设置)时,仍然存在测试集过拟合的风险,因为可以对参数进行调整,直到估算器达到最佳性能为止。这样,有关测试集的知识可以“渗入”模型,并且评估指标不再报告泛化性能。为了解决此问题,可以将数据集的另一部分保留为所谓的“验证集”:对训练集进行训练,然后对验证集进行评估,以及实验何时成功,可以对测试集进行最终评估。
我看到引入了另一个(第三个)验证集,这是通过在超参数调整期间对测试集进行过度拟合来证明的。
问题是我无法理解这种过度拟合的外观,因此无法理解第三组的合理性。