当使用k-fold CV在回归模型中进行选择时,我通常会针对每个模型及其标准误差SE分别计算CV误差,并且我会在CV误差最低的模型的1 SE中选择最简单的模型(1标准错误规则,请参见此处的示例)。但是,最近有人告诉我,这样我就高估了可变性,并且在选择两个模型A和B之间的特定情况下,我确实应该以不同的方式进行:
- 对于长度每个折叠,计算两个模型预测之间的逐点差异。然后计算折叠
- 像往常一样在折痕上平均,并将此CV差值误差(及其标准误差)用作泛化误差的估计量。
问题:
- 你能理解这个吗?我知道使用CV错误作为广义错误的估计因素有理论上的原因(我不知道这些原因是什么,但我知道它们存在!)。我不知道使用此“差异” CV错误背后是否有理论上的原因。
- 我不知道这是否可以推广到两个以上模型的比较中。计算所有成对模型的差异似乎是冒险的(多次比较?):如果您拥有两个以上的模型,该怎么办?
编辑:我的公式是完全错误的,此处描述了正确的指标,而且复杂得多。好吧,我很高兴在盲目应用公式之前在这里问过!感谢@Bay帮助我理解他/她的启发性答案。所描述的正确方法是实验性的,因此我会坚持使用我信任的工作马,CV错误!