我的理解是,通过交叉验证和模型选择,我们尝试解决两件事:
P1。用我们的样本进行训练时估计人口的预期损失
P2。测量并报告我们对该估计的不确定性(方差,置信区间,偏差等)
标准做法似乎是进行反复交叉验证,因为这会减少我们估算器的差异。
但是,在报告和分析方面,我的理解是内部验证比外部验证要好,因为:
最好报告:
- 我们的估算器的统计数据,例如,对整个样本(在本例中为CV样本)的置信区间,方差,均值等。
比报告:
由于以下原因,我们在原始样本的保留子集上的估计量损失:
(i)这将是一次测量(即使我们使用CV选择估算器)
(ii)由于我们必须为保留集留出空间,因此我们将使用比原始样本小的集(例如CV集)来训练我们用于此单一测量的估计量。这导致P1中的估计更加偏颇(悲观)。
它是否正确?如果不是为什么?
背景:
很容易找到建议将样本分为两组的教科书:
- 该CV集,随后,反复分为训练和验证集。
- 在保持退出(测试)集,只在最后用来报告估计性能
我的问题是试图了解这种教科书方法的优点和优势,因为我们的目标是在本文开头真正解决问题P1和P2。在我看来,报告保留测试集是一种不好的做法,因为对CV样本的分析会提供更多信息。
嵌套K折与重复K折:
原则上,可以将保留与常规K折相结合以获得 嵌套K折。这将使我们能够评估估计量的变异性,但在我看来,对于相同数量的总训练模型(总折数),重复K折将产生比嵌套K-误差更小,更准确的估计量折。要看到这个:
- 对于相同的K,重复的K折使用的总样本量要比嵌套K折的样本大(即,导致较低的偏差)
- 100次迭代只会以嵌套K折(K = 10)给出估计值的10次测量,但是以K折为100次测量(更多的测量会导致P2的方差更低)
这个推理怎么了?