恕我直言,保持验证最糟糕的特性之一是心理上的,而不是统计上的:我看到很多保持不变的解释,就好像它是一个独立的验证实验(在实验水平上已经具有独立性)一样,尽管很多我看到的与重采样验证相关的关键问题也可能并且也会与保留问题一样发生(任何由不适当的拆分引起的问题)。
除此之外,恕我直言,它几乎与重采样相同(至少正如我在实践中所见)。差异是
- 实际不同的测试案例总数较低(因此,估算的不确定性较低)。
- 对于保持,对实际测试的模型要求的性能,而不是根据保持训练和保持测试数据构建的未经测试的模型的性能。重新采样声称,测得的性能非常接近后者模型的性能。但是我也看到了这种保留方法(“设置验证”)。
Esbensen和Geladi:正确验证的原则:使用和滥用重新采样进行验证,《化学计量学》,第24卷(3-4),第168-187页认为,实际上,两者都不是很好的数据集近似值(验证实验)来衡量真正有趣的性能特征。
您可能会以过度拟合训练数据的方式最终过度拟合测试数据。
与任何其他验证相同:如果您进行数据驱动的建模/模型选择,则需要另一个独立的验证级别。在保留方案和重采样方案之间,我没有看到任何区别。
首先使用保持验证来构建和测试模型,然后作为验证步骤,重新绘制保持集几次,以表明我对预测误差的估计(在测试集上)对于测试中的采样误差具有鲁棒性组。这是个坏主意吗?
我认为是的:恕我直言,应使用嵌套设置
(除非您想建议也可以并且也应该重复进行保留验证-这是一种有效的方法,与迭代/重复设置验证仅通过解释有所不同) :性能说明是关于许多实际测试的模型还是将其外推到由所有数据构成的一个模型)。