Kaggle竞赛根据坚持下来的测试集确定最终排名。
保留的测试集是一个样本;它可能不代表正在建模的总体。由于每个提交都像一个假设,因此赢得竞争的算法可能完全有可能比其他方法更好地匹配测试集。换句话说,如果选择了不同的测试集并重复了比赛,排名会保持不变吗?
对于赞助公司而言,这并不重要(可能前20名提交者会改善他们的基准)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更糟糕的第一名的模型。但是,对于竞争参与者来说,Kaggle似乎最终是一种机会游戏-不需要偶然找到正确的解决方案,而是需要偶然找到与测试集匹配的解决方案!
是否可以改变比赛方式,以便所有无法在统计上区分的顶级球队获胜?或者,在这一组中,最简约或计算便宜的模型能否获胜?
1
有些人在隐藏集上使用测试来回退实际测试值。这使他们几乎完全适合结果。保持阻止了这种情况。我个人的观点是,坚持与不坚持之间的区别在于摆脱作弊行为。
—
EngrStudent
当然应该从参与者那里保留测试数据,但是我想知道是否有一个单一的保留测试集是否会使比赛结果(对于前支球队)基本上取决于机会。
—
user0
分数加权。一个好的系统几乎每次都会胜过垃圾系统。一个失败的工作需要大量的工作,以至于最后的工作成为第一位。如果对保留的内容进行重新采样,则在有数千名参与者的情况下,本地顺序(排名可能不超过10步)将发生变化。您可以进行数值实验来证明这一点。
—
EngrStudent
从赞助公司的角度来看,他们没有被迫实际实施获胜模型。如果我没记错的话,从未实现过赢得netflix挑战的模型。他们可以从最佳模型中选拔一些可靠的候选人,并对其进行进一步测试。
—
大卫·恩斯特