为什么经典统计中不使用保留方法（将数据分为训练和测试）？

12

在我的课堂上进行数据挖掘时，引入保持方法是一种评估模型性能的方法。但是，当我第一次上线性模型课程时，并没有将其作为模型验证或评估的方法。我的在线研究也没有显示任何交叉点。为什么经典统计中不使用保留方法？

— tirkquest
source

22

一个更有成效的问题可能是“为什么我所学的古典统计学中没有使用它？”

根据授课的水平，选择的课程内容（和可用时间）可能是多种因素共同作用的结果。通常将重要的主题放在一边，因为必须出于一种或多种原因来教授其他材料，希望它们可以在以后的课程中涵盖。

至少从某种意义上说，这个概念早已被许多人使用。它在某些领域比其他地区更为普遍。大量使用统计数据并没有将预测或模型选择作为主要组成部分（或者在某些情况下甚至根本没有），在这种情况下，使用保留样本可能不如以预测为重点时那么紧要。可以说，它应该在早期在某些相关应用程序中得到比以前更广泛的使用，但这并不是未知的事情。

如果您关注的是预测领域，那么通过预测未用于估计模型的数据进行模型评估的概念肯定是存在的（尽管不是通用的）。例如，我肯定是在1980年代所做的时间序列建模中做到这一点的，其中最新数据的样本外预测性能尤为重要。

例如，在回归分析（删除的残差，PRESS，折弯等等）和异常值分析中使用了至少删除一些数据的概念。

这些想法中的一些仍然可以早日返回。Stone（1974）[1]指的是1950年代和60年代关于交叉验证的论文（标题中带有单词）。也许甚至更接近您的意图，他提到西蒙（Simon（1971））使用术语“构造样本”和“验证样本”，但同时指出“拉森（1931）在教育倍数中采用了样本的随机划分方法。 -回归研究”。

例如，交叉验证以及基于预测的统计信息的使用等主题在70年代和80年代的统计文献中变得越来越普遍，但是许多基本思想甚至存在了相当长的时间然后。

[1]：Stone，M。，（1974年），
“交叉验证选择和统计预测的评估”
，皇家统计学会杂志。B系列（方法），卷。36，第2号，第111-147页

— Glen_b-恢复莫妮卡
source

仅作记录，斯通先生不是我，也与我无关，除非可能通过亚当和夏娃。

— 马克·L·斯通

11

为了补充Glen_b的答案，古典统计通常/一直侧重于数据的最佳使用，最优检验，最优估计量，充分性等，并且在该理论框架中很难证明不使用部分信息是合理的！该传统的一部分是强调样本很少的情况，在这些情况下很难进行保留。

例如，费舍尔主要从事遗传学和农业实验工作，在这些领域中，很少有观察是常规。因此，他主要面临的问题是使用小型数据集。

— 凯捷蒂尔·哈沃森
source

6

我将从一个可能在古典统计学和机器学习之间的应用领域回答：化学计量学，即化学分析的统计数据。我将添加两个不同的场景，在这些场景中，保持并不像在典型的机器学习课程中那样重要。

方案1：

我认为这里的关键一点是要认识到，培训和测试的小样本量之间存在根本差异：

对于培训，通常情况下的比率：模型复杂度（参数数目）很重要（自由度）
对于测试，测试用例的绝对数量很重要。
（测试过程的质量必须与模型无关：通过使用独立的测试用例进行验证，将其视为黑匣子）

我需要论证的第二点是，独立测试用例至关重要的情况是过拟合的。如果模型不够复杂（偏差 $\gg$ 方差，因此在拟合下），残差可以告诉您与独立案例一样多的总预测误差。

现在，有关“经典”线性模型的统计讲座经常强调单变量模型。对于单变量线性模型，训练样本的大小可能不小：通常与模型复杂度相比来判断训练样本的大小，并且线性模型只有两个参数：偏移和斜率。在分析化学中，我们实际上有一个规范，要求您为单变量线性校准至少应有10个校准样品。这样可以确保不会出现模型不稳定性的情况，因此不需要保留。

但是，在机器学习中，以及在化学分析中使用现代多通道检测器（例如在质谱分析中有时为10 6个“通道”）时，模型稳定性（即方差）是一个重要的问题。因此，需要保持或更好地重采样。

方案2：

完全不同的情况是，可以跳过保留，而将更容易的（残差）加上更复杂的性能测量结合起来。需要注意的是保持退出进行中的（随机）感撤销的一部分一个数据集，并从训练排除这是不是相当于什么独立测试可以实现。在分析化学中，可以进行专门的验证实验，包括例如测量随时间变化的性能下降（仪器漂移），这是无法通过保持进行测量的，并且可以确定例如传感器在实际工业环境中的性能（而传感器校准）是在实验室中对校准样品进行的）。另请参阅/stats//a/104750/4598 有关独立测试与保留的更多详细信息。

— cbeleites对SX不满意
source

上面，在场景1中，我想你确实想说（偏差<<方差）？请改正！

— kjetil b halvorsen

1

@kjetilbhalvorsen不，因为她指的是该段中的拟合不足（模型不够复杂）。

— 马克·克莱森

@kjetilbhalvorsen; 马克·克莱森（Marc Claesen）是对的，我强调指出，这是针对可以确定问题不充分的情况。

— cbeleites对SX不满意，2015年

好。满足要求的一些信件

— Kjetil B halvorsen