我对机器学习研究中的验证有一个特定的问题。
众所周知,机器学习机制要求研究人员在训练数据上训练他们的模型,通过验证集从候选模型中进行选择,并报告测试集的准确性。在非常严格的研究中,测试集只能使用一次。但是,它永远不可能成为研究方案,因为在发表(甚至提交)论文之前,我们必须提高性能,直到测试准确性优于最新结果为止。
现在出现了问题。假设50%是最先进的结果,而我的模型通常可以达到50--51的精度,平均而言更好。
但是,我的最佳验证准确性(52%)产生了非常低的测试准确性,例如49%。然后,如果我无法进一步提高验证acc,则必须报告49%的总体性能,这对我来说是没有希望的。这确实使我无法研究问题,但是对我的同伴来说并不重要,因为他们没有看到52%的符合率,我认为这是一个离群值。
那么,人们通常在研究中如何做?
ps k-fold验证没有帮助,因为相同的情况仍然可能发生。