是否应该使用重复的交叉验证来评估预测模型？

我碰到了Gitte Vanwinckelen和Hendrik Blockeel 在2012年发表的这篇文章，对重复交叉验证的实用性提出了质疑，该方法已成为减少交叉验证方差的一种流行技术。

作者证明，尽管重复交叉验证确实减少了模型预测的方差，但是由于对同一样本数据集进行了重新采样，因此重新采样的交叉验证估计的均值收敛于真实预测准确性的偏差估计，因此没有用。

尽管有这些限制，是否应该使用重复的交叉验证？

cross-validation

— 罗伯特·F
source

以我的经验，交叉验证（是否重复）不能很好地估计预测准确性。但它是用于比较不同型号的预测性能是非常有用的。这是在模型之间进行选择的好方法，但不是评估单个模型性能的好方法。

— 比卢德（Flounderer）2016年

@Flounderer很好。我对本文的解释是，我们无法基于重复的交叉验证与非重复的交叉验证对模型进行有意义的比较。您正在尝试从数据中挤出不合理的信息量。还是不正确？

— 罗伯特·F

该论文似乎正在引起争论，这对我来说似乎很奇怪。

据该报称，CV的目标是估计，对新的数据模型，预期的业绩预测考虑到模型上观测到的数据集训练的。当我们进行倍CV，我们得到的估计这个号码。因为随机划分的成皱褶，这是一个随机变量均值和方差。相反，次CV得出的估计值具有相同的均值 $\alpha_2$ $S$ $k$ $\hat A$ $S$ $k$ $\hat A \sim f(A)$ $\mu_k$ $\sigma^2_k$ $n$ 但更小的方差。 $\mu_k$ $\sigma^2_k/n$

显然，。这种偏见是我们必须接受的。 $\alpha_2\ne \mu_k$

但是，预期误差将是较小的较大，并且将最大为，至少在约合理假设，例如，当。换句话说，重复CV允许获得的更精确的估算 $\mathbb E\big[|\alpha_2-\hat A|^2\big]$ $n$ $n=1$ $f(A)$ $\hat A\mathrel{\dot\sim} \mathcal N(\mu_k,\sigma^2_k/n)$ $\mu_k$ 它是一件好事，因为它给出了一个更精确的估计。 $\alpha_2$

因此，重复的CV严格比未重复的CV更精确。

作者不同意！相反，他们根据模拟声称，

在许多情况下，[通过重复CV]减小方差不是很有用，并且实质上浪费了计算资源。

这只是意味着在他们的模拟是相当低; 并且实际上，他们所使用的最小样品尺寸为，这可能是足够大的，以产生小。（使用未重复CV和30次重复CV所获得的估算值之差总是很小。）使用较小的样本量，人们可以期望重复之间的差异更大。 $\sigma^2_k$ $200$ $\sigma^2_k$

CAVEAT：放心间隔！

作者要指出的另一点是

置信区间的报告（在重复交叉验证中）具有误导性。

似乎他们指的是CV重复平均值的置信区间。我完全同意，这是毫无意义的事情！本次CV是重复的，小本CI会，但没有人感兴趣的CI在我们的估计！我们关心我们周围的估计CI 。 $\mu_k$ $\alpha_2$

作者还报告了未重复CV的CI，但对我而言，尚不清楚这些CI是如何构建的。我想这些是折均值的CI 。我认为这些配置项也几乎毫无意义！ $k$

看一下其中的一个例子：adult使用NB算法和200个样本大小的数据集的准确性。非重复CV占78.0％，重复10次CV占79.0％（77.21，80.79），重复30次CV占79.1％（78.07，80.13）。所有这些配置项都是无用的，包括第一个。的最佳估计是79.1％。这相当于200次中有158次成功。这产生了95％的二项式置信区间（72.8，84.5）-甚至比第一个报道的要大。如果我想报告一些配置项，这就是我要报告的配置项。 $\mu_k$

一般注意事项：简历差异。

您写了重复的简历

已成为减少交叉验证方差的流行技术。

一个人应该非常清楚，简历的“差异”意味着什么。重复CV减少了估计的方差。注意，在留一式CV（LOOCV）的情况下，当，此方差等于零。尽管如此，人们常说LOOCV实际上在所有可能的倍CV中具有最高的方差。参见此处的示例：交叉验证中的方差和偏差：为什么留一字CV具有较高的方差？ $\mu_k$ $k=N$ $k$

这是为什么？这是因为LOOCV具有最高的方差的估计时，在同样大小的一个新的数据集构建这是对新的数据模型的预期预测性能。这是一个完全不同的问题。 $\alpha_1$ $S$

— 变形虫说恢复莫妮卡
source

我希望@cbeleites会注意到此线程并在此处发表评论或留下她自己的答案：我知道她（或过去）经常使用重复CV，并且我认为提倡将重复性的可变性作为模型稳定性的某种度量。但是我认为她不会计算重复次数的CI。

— 变形虫说恢复莫妮卡

感谢您对本文的清晰解释。因此，要总结你的位置，当你状态“换句话说，重复CV允许获得更精确的估计

，这是一件好事，因为它给出了一个更精确的估计

”你是否支持利用重复简历作为一种手段来比较的更精确的测量模型

（即使不是的更准确的量度

）。忽略CV的CI，转而关注比较平均

S对于不同的模式。

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

— 罗伯特·F

@RobertF：我在谈论（跟随V＆B论文）关于评估模型性能。我的观点是，重复的简历比未重复的简历更精确，并且我认为这是毫无疑问的（V＆R认为，尽管精度差异在实践中并不那么重要）。比较两个模型要困难得多，因为假设您运行CV并获得一个模型的70％和另一个模型的71％。这是“重大”区别吗？好吧，这是一个棘手的问题，没有明确的答案。而且它独立于重复/未重复的问题。

— 变形虫说恢复莫妮卡的

值得

— 2016年

σ_{k}

$\sigma_k$