Answers:
一个更有成效的问题可能是“为什么我所学的古典统计学中没有使用它?”
根据授课的水平,选择的课程内容(和可用时间)可能是多种因素共同作用的结果。通常将重要的主题放在一边,因为必须出于一种或多种原因来教授其他材料,希望它们可以在以后的课程中涵盖。
至少从某种意义上说,这个概念早已被许多人使用。它在某些领域比其他地区更为普遍。大量使用统计数据并没有将预测或模型选择作为主要组成部分(或者在某些情况下甚至根本没有),在这种情况下,使用保留样本可能不如以预测为重点时那么紧要。可以说,它应该在早期在某些相关应用程序中得到比以前更广泛的使用,但这并不是未知的事情。
如果您关注的是预测领域,那么通过预测未用于估计模型的数据进行模型评估的概念肯定是存在的(尽管不是通用的)。例如,我肯定是在1980年代所做的时间序列建模中做到这一点的,其中最新数据的样本外预测性能尤为重要。
例如,在回归分析(删除的残差,PRESS,折弯等等)和异常值分析中使用了至少删除一些数据的概念。
这些想法中的一些仍然可以早日返回。Stone(1974)[1]指的是1950年代和60年代关于交叉验证的论文(标题中带有单词)。也许甚至更接近您的意图,他提到西蒙(Simon(1971))使用术语“构造样本”和“验证样本”,但同时指出“拉森(1931)在教育倍数中采用了样本的随机划分方法。 -回归研究”。
例如,交叉验证以及基于预测的统计信息的使用等主题在70年代和80年代的统计文献中变得越来越普遍,但是许多基本思想甚至存在了相当长的时间然后。
[1]:Stone,M。,(1974年),
“交叉验证选择和统计预测的评估”
,皇家统计学会杂志。B系列(方法),卷。36,第2号,第111-147页
我将从一个可能在古典统计学和机器学习之间的应用领域回答:化学计量学,即化学分析的统计数据。我将添加两个不同的场景,在这些场景中,保持并不像在典型的机器学习课程中那样重要。
我认为这里的关键一点是要认识到,培训和测试的小样本量之间存在根本差异:
我需要论证的第二点是,独立测试用例至关重要的情况是过拟合的。如果模型不够复杂(偏差方差,因此在拟合下),残差可以告诉您与独立案例一样多的总预测误差。
现在,有关“经典”线性模型的统计讲座经常强调单变量模型。对于单变量线性模型,训练样本的大小可能不小:通常与模型复杂度相比来判断训练样本的大小,并且线性模型只有两个参数:偏移和斜率。在分析化学中,我们实际上有一个规范,要求您为单变量线性校准至少应有10个校准样品。这样可以确保不会出现模型不稳定性的情况,因此不需要保留。
但是,在机器学习中,以及在化学分析中使用现代多通道检测器(例如在质谱分析中有时为10 6个“通道”)时,模型稳定性(即方差)是一个重要的问题。因此,需要保持或更好地重采样。
完全不同的情况是,可以跳过保留,而将更容易的(残差)加上更复杂的性能测量结合起来。需要注意的是保持退出进行中的(随机)感撤销的一部分一个数据集,并从训练排除这是不是相当于什么独立测试可以实现。在分析化学中,可以进行专门的验证实验,包括例如测量随时间变化的性能下降(仪器漂移),这是无法通过保持进行测量的,并且可以确定例如传感器在实际工业环境中的性能(而传感器校准)是在实验室中对校准样品进行的)。另请参阅/stats//a/104750/4598 有关独立测试与保留的更多详细信息。