与k倍CV相比,延期验证是否更好地近似了“获取新数据”?


10

我一直在重新思考几个星期前我对一个问题的回答

保持交叉验证可生成单个测试集,该测试集可重复用于演示。我们大家似乎都同意,这在许多方面都是不利的特征,因为通过随机性,一个被保留的集合可能变得没有代表性。此外,您可能最终以过度拟合训练数据的方式过度拟合测试数据。

但是,在我看来,保留样本的静态性质比“ k倍CV”更好地近似为“获取更多数据”,并且避免了跨折平均的问题。但是,我无法为这种感觉提供任何统计依据。我的直觉有逻辑吗?

例如,对于即将到来的项目,我要想到的是首先使用保持验证来构建和测试模型,然后在验证步骤中多次重绘保持集以显示我对预测误差的估计(测试集上的数据)对测试集中的采样误差具有鲁棒性。这是个坏主意吗?之前问过这个问题但从未得到答案。

Answers:


6

恕我直言,保持验证最糟糕的特性之一是心理上的,而不是统计上的:我看到很多保持不变的解释,就好像它是一个独立的验证实验(在实验水平上已经具有独立性)一样,尽管很多我看到的与重采样验证相关的关键问题也可能并且也会与保留问题一样发生(任何由不适当的拆分引起的问题)。

除此之外,恕我直言,它几乎与重采样相同(至少正如我在实践中所见)。差异是

  • 实际不同的测试案例总数较低(因此,估算的不确定性较低)。
  • 对于保持,对实际测试的模型要求的性能,而不是根据保持训练和保持测试数据构建的未经测试的模型的性能。重新采样声称,测得的性能非常接近后者模型的性能。但是我也看到了这种保留方法(“设置验证”)。

Esbensen和Geladi:正确验证的原则:使用和滥用重新采样进行验证,《化学计量学》,第24卷(3-4),第168-187页认为,实际上,两者都不是很好的数据集近似值(验证实验)来衡量真正有趣的性能特征。

您可能会以过度拟合训练数据的方式最终过度拟合测试数据。

与任何其他验证相同:如果您进行数据驱动的建模/模型选择,则需要另一个独立的验证级别。在保留方案和重采样方案之间,我没有看到任何区别。

首先使用保持验证来构建和测试模型,然后作为验证步骤,重新绘制保持集几次,以表明我对预测误差的估计(在测试集上)对于测试中的采样误差具有鲁棒性组。这是个坏主意吗?

我认为是的:恕我直言,应使用嵌套设置
(除非您想建议也可以并且也应该重复进行保留验证-这是一种有效的方法,与迭代/重复设置验证仅通过解释有所不同) :性能说明是关于许多实际测试的模型还是将其外推到由所有数据构成的一个模型)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.