Kaggle的私人排行榜是否可以很好地预测获胜模型的样本外性能？

虽然不能使用私有测试集的结果进一步完善模型，但难道不是基于私有测试集的结果从大量模型中选择模型吗？您是否仅通过该过程就不会过度适合私有测试集？

根据 Bailey et.al的“伪数学和金融欺诈行为：回测过拟合对样本外性能的影响”。从同一数据集上评估的大量模型中选择最佳模型时，“过度拟合”相对容易。Kaggle的私人排行榜不是这样吗？

私有排行榜上表现最佳的模型是将最佳数据推广到样本外数据的模型，其统计依据是什么？
公司是否最终使用了获胜的模型，还是仅仅在私人排行榜上提供“游戏规则”，而公司实际上对讨论问题所产生的见解更感兴趣？

model-selection overfitting out-of-sample

— s
source

有点相关：stats.stackexchange.com/q/235591

— Kodiologist

您可以查看私人分数和公共分数之间的差异。有人可能会争辩说，一个非过度拟合的模型应该在两个数据集上都达到相似的性能。

— shadowtalker

@shadowtalker这确实是检测过度拟合的好方法，但是我们真正感兴趣的是模型的样本外预测能力，而不是过度拟合的程度。过拟合模型（即，在样本内比在样本外工作的更好的模型）可能比未过拟合的模型具有更好的样本外性能。我手头没有参考，但我相信在使用复杂模型（例如CNN）时，在复杂领域（例如计算机视觉）中经常会出现这种情况。

— rinspy

好吧，您提出的观点是公平的，但是我认为，人们在公共排行榜上的过分适应存在着更为现实的问题。

当您提交100个左右的提交时，可能会发生这种情况，公共测试集最终将渗入您的超参数选择中，从而导致过拟合。我认为在这方面私人排行榜是必要的。

— 塞夫
source