并非所有统计过程都分为训练/测试数据,也称为“交叉验证”(尽管整个过程所涉及的范围不止于此)。
相反,这是一种专门用于估计样本外误差的技术。也就是说,您的模型使用新数据集预测新结果的效果如何?例如,当您拥有相对于数据集中样本数量而言非常多的预测变量时,这将成为一个非常重要的问题。在这种情况下,构建具有很大的样本内误差但可怕的样本外误差(称为“过度拟合”)的模型真的很容易。在同时具有大量预测变量和大量样本的情况下,交叉验证是帮助评估模型对新数据进行预测时表现良好的必要工具。在竞争性预测模型之间进行选择时,它也是重要的工具。
另一方面,在尝试建立预测模型时,几乎总是使用交叉验证。通常,当您试图估计某些处理的效果时,它对模型不是很有帮助。例如,如果要比较材料A和B之间的拉伸强度分布(“处理”是材料类型),则不需要交叉验证;尽管我们确实希望我们对治疗效果的估计能从样本中得出,但是对于大多数问题,经典统计理论比交叉验证能更准确地回答这一问题(即估计的“标准误”)。不幸的是,经典统计方法1对于标准误差,在过拟合的情况下不成立。在这种情况下,交叉验证通常会做得更好。
另一方面,如果您要根据10,000个测量变量预测材料何时破裂,这些变量将根据100,000个观测值放入某个机器学习模型中,那么在没有交叉验证的情况下构建大型模型会遇到很多麻烦!
我猜想在完成的许多物理实验中,您通常对效果的估计感兴趣。在这些情况下,几乎不需要交叉验证。
1有人可能会说具有先验信息的贝叶斯方法是解决过度拟合的经典统计方法。但这是另一个讨论。
旁注:虽然交叉验证最早出现在统计文献中,并且肯定被自称为统计学家的人们使用,但它已成为机器学习社区中基本的必需工具。许多统计模型无需交叉验证即可很好地工作,但是几乎所有被认为是“机器学习预测模型”的模型都需要交叉验证,因为它们经常需要选择调整参数,如果没有交叉验证,这几乎是不可能的。 -验证。