邵军在他的论文中通过交叉验证选择线性模型,表明对于多元线性回归中的变量选择问题,留一法交叉验证(LOOCV)的方法“渐近不一致”。用简单的英语来说,它倾向于选择变量太多的模型。Shao在模拟研究中表明,即使只有40个观察结果,LOOCV的表现也不能胜过其他交叉验证技术。
这篇论文有些争议,有些忽略了(发表10年后,我的化学计量学同事从未听说过,并且很乐意使用LOOCV进行变量选择...)。还有一种信念(对此我有罪),其结果超出了最初的有限范围。
那么问题是:这些结果延伸到多远?它们适用于以下问题吗?
- 逻辑回归/ GLM的变量选择?
- Fisher LDA分类的变量选择?
- 使用具有有限(或无限)内核空间的SVM进行变量选择?
- 比较模型中的分类,比如说使用不同内核的SVM?
- 比较线性回归模型,比如说将MLR与Ridge回归进行比较?
- 等等