交叉验证滥用(报告性能以获得最佳超参数值)


30

最近,我遇到了一篇论文,提出在特定数据集上使用k-NN分类器。作者使用所有可用的数据样本对不同的k值执行k倍交叉验证,并报告最佳超参数配置的交叉验证结果。

据我所知,这个结果是有偏差的,他们应该保留一个单独的测试集,以获取未用于执行超参数优化的样本的准确性估计。

我对吗?您能否提供一些参考(最好是研究论文)来描述交叉验证的这种滥用?


3
请注意,可以使用所谓的嵌套交叉验证来代替单独的测试集。如果您在此站点上搜索此术语,则会发现很多讨论。尤其要寻找@DikranMarsupial的答案,他是公认答案中引用的第二篇论文的作者之一。
变形虫说恢复莫妮卡

Answers:


29

2
更准确地说,问题不是报告交叉验证结果,而是报告作为选择/优化过程一部分的性能估计。
cbeleites支持Monica 2016年

1
另请注意,如果此处的问题是在特定数据集上训练的特定模型的性能,则Bengio&Grandvalet论文的相关性较差-他们讨论了将相同trainig算法应用于来自相同总体的新数据集的性能(需要以包括从同一来源采样的相同大小的不同数据集之间的方差-如果我们谈论的是在特定数据集上训练的模型的预测性能,则这不是问题)。
cbeleites支持Monica 2016年

1
@cbeleites正确地发现:在答案的初稿中,我不小心选择了第三个参考文献,而不是第二个参考文献,但后来又不想从已被接受的答案中删除任何信息,这就是为什么我在其中添加了第二个参考文献之间(请参阅答案的版本)。尽管如此,我认为问题主要在于所报告的错误,并且这些论文指出了在这方面,CIM可以做得很好的一些事情,恕我直言。
geekoverdose 2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.