Kaggle比赛是不是偶然赢了?


12

Kaggle竞赛根据坚持下来的测试集确定最终排名。

保留的测试集是一个样本;它可能不代表正在建模的总体。由于每个提交都像一个假设,因此赢得竞争的算法可能完全有可能比其他方法更好地匹配测试集。换句话说,如果选择了不同的测试集并重复了比赛,排名会保持不变吗?

对于赞助公司而言,这并不重要(可能前20名提交者会改善他们的基准)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更糟糕的第一名的模型。但是,对于竞争参与者来说,Kaggle似乎最终是一种机会游戏-不需要偶然找到正确的解决方案,而是需要偶然找到与测试集匹配的解决方案!

是否可以改变比赛方式,以便所有无法在统计上区分的顶级球队获胜?或者,在这一组中,最简约或计算便宜的模型能否获胜?


1
有些人在隐藏集上使用测试来回退实际测试值。这使他们几乎完全适合结果。保持阻止了这种情况。我个人的观点是,坚持与不坚持之间的区别在于摆脱作弊行为。
EngrStudent

1
当然应该从参与者那里保留测试数据,但是我想知道是否有一个单一的保留测试集是否会使比赛结果(对于前支球队)基本上取决于机会。X
user0

分数加权。一个好的系统几乎每次都会胜过垃圾系统。一个失败的工作需要大量的工作,以至于最后的工作成为第一位。如果对保留的内容进行重新采样,则在有数千名参与者的情况下,本地顺序(排名可能不超过10步)将发生变化。您可以进行数值实验来证明这一点。
EngrStudent

2
从赞助公司的角度来看,他们没有被迫实际实施获胜模型。如果我没记错的话,从未实现过赢得netflix挑战的模型。他们可以从最佳模型中选拔一些可靠的候选人,并对其进行进一步测试。
大卫·恩斯特

Answers:


12

是的,您的推理是正确的。如果选择了不同的测试集并重复比赛,排名的确会发生变化。考虑以下示例。带有二进制标签的Kaggle竞赛的所有条目都只是随机猜测(并且说是独立地)以预测其输出。一个偶然的机会,即使没有任何预言,他们中的一个也会比其他人更认同这种坚持。

尽管这有点做作,但我们可以看到,每个提交模型的差异都意味着应用许多这样的条目确实恰好适合保留集的影响。这告诉我们(取决于各个模型的方差),排名靠前的N个模型可能一概而论。这是分叉路径花园,除了“研究人员”不同(但这没关系)。

是否可以改变比赛方式,以使所有无法从统计学上与测试组的最高表现区分开的球队都获胜?

确实。

  • 一种方法(实际上是不切实际的)是在每个条目中明确计算给定模型的方差,这将为我们提供其保持性能的CI。
  • 另一种可能需要大量计算的方法是,通过向所有模型公开训练和测试API来引导CI的保持性能。

好答案。您能否详细说明如何实现这两种方法?
user0

1
有趣的是:最好的模型实际上可能不是获胜团队的模型。
user0

1
没有数据分布就无法明确计算出方差(我仅提及它是因为它解释了理论)。本文介绍了几种用于准确性估计的方法(以及它们失败之处),包括引导程序和交叉验证。但是,与本文不同的是,在这种情况下,我们不是在训练集上进行模型选择的CV,而是在结合训练和测试数据集上获得可靠的“分数”。
VF1

对于可靠的获胜者估算,也许两轮比较好。第一轮移除最差的99%,第二轮重新评估排名以“抛光”订单。
EngrStudent

1
要在此处补充说明,请查看2014年NCAA March Madness Kaggle竞赛获胜者的论文。向下滚动至第4节“模拟研究”。根据他们的模拟,如果他们的模型对每个对局的预测概率实际上是真实的自然状态,那么他们的中位数排名将排在第11位。
klumbard

3

Kaggle还有其他类型的比赛,没有机会因素。例如,这辆Stanta的被盗雪橇

这是一个离散的优化问题,甚至没有私人排行榜。您在公共排行榜中看到的是最终结果。

与对许多人来说很容易上手的有监督的学习相比,这种竞赛本质上更“艰难”。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.