我碰到了Gitte Vanwinckelen和Hendrik Blockeel 在2012年发表的这篇文章,对重复交叉验证的实用性提出了质疑,该方法已成为减少交叉验证方差的一种流行技术。
作者证明,尽管重复交叉验证确实减少了模型预测的方差,但是由于对同一样本数据集进行了重新采样,因此重新采样的交叉验证估计的均值收敛于真实预测准确性的偏差估计,因此没有用。
尽管有这些限制,是否应该使用重复的交叉验证?
我碰到了Gitte Vanwinckelen和Hendrik Blockeel 在2012年发表的这篇文章,对重复交叉验证的实用性提出了质疑,该方法已成为减少交叉验证方差的一种流行技术。
作者证明,尽管重复交叉验证确实减少了模型预测的方差,但是由于对同一样本数据集进行了重新采样,因此重新采样的交叉验证估计的均值收敛于真实预测准确性的偏差估计,因此没有用。
尽管有这些限制,是否应该使用重复的交叉验证?
Answers:
该论文似乎正在引起争论,这对我来说似乎很奇怪。
据该报称,CV的目标是估计,对新的数据模型,预期的业绩预测考虑到模型上观测到的数据集训练的小号。当我们进行ķ倍CV,我们得到的估计一个这个号码。因为随机划分的小号成ķ皱褶,这是一个随机变量甲〜˚F (甲)均值μ ķ和方差σ 2 ķ。相反,n次CV得出的估计值具有相同的均值但更小的方差 σ 2 ķ / Ñ。
显然,。这种偏见是我们必须接受的。
但是,预期误差将是较小的较大Ñ,并且将最大为Ñ = 1,至少在约合理假设˚F (甲),例如,当甲 ˙ 〜 Ñ(μ ķ,σ 2 ķ / Ñ )。换句话说,重复CV允许获得的更精确的估算μ ķ它是一件好事,因为它给出了一个更精确的估计。
因此,重复的CV严格比未重复的CV更精确。
作者不同意!相反,他们根据模拟声称,
在许多情况下,[通过重复CV]减小方差不是很有用,并且实质上浪费了计算资源。
这只是意味着在他们的模拟是相当低; 并且实际上,他们所使用的最小样品尺寸为200,这可能是足够大的,以产生小σ 2 ķ。(使用未重复CV和30次重复CV所获得的估算值之差总是很小。)使用较小的样本量,人们可以期望重复之间的差异更大。
CAVEAT:放心间隔!
作者要指出的另一点是
置信区间的报告(在重复交叉验证中)具有误导性。
似乎他们指的是CV重复平均值的置信区间。我完全同意,这是毫无意义的事情!本次CV是重复的,小本CI会,但没有人感兴趣的CI在我们的估计!我们关心我们周围的估计CI α 2。
作者还报告了未重复CV的CI,但对我而言,尚不清楚这些CI是如何构建的。我想这些是折均值的CI 。我认为这些配置项也几乎毫无意义!
看一下其中的一个例子:adult
使用NB算法和200个样本大小的数据集的准确性。非重复CV占78.0%,重复10次CV占79.0%(77.21,80.79),重复30次CV占79.1%(78.07,80.13)。所有这些配置项都是无用的,包括第一个。的最佳估计是79.1%。这相当于200次中有158次成功。这产生了95%的二项式置信区间(72.8,84.5)-甚至比第一个报道的要大。如果我想报告一些配置项,这就是我要报告的配置项。
一般注意事项:简历差异。
您写了重复的简历
已成为减少交叉验证方差的流行技术。
一个人应该非常清楚,简历的“差异”意味着什么。重复CV减少了估计的方差。注意,在留一式CV(LOOCV)的情况下,当k = N时,此方差等于零。尽管如此,人们常说LOOCV实际上在所有可能的k倍CV中具有最高的方差。参见此处的示例:交叉验证中的方差和偏差:为什么留一字CV具有较高的方差?
这是为什么?这是因为LOOCV具有最高的方差的估计时,在同样大小的一个新的数据集构建这是对新的数据模型的预期预测性能小号。这是一个完全不同的问题。