邵的留一法交叉验证的结果何时适用?


22

邵军在他的论文中通过交叉验证选择线性模型,表明对于多元线性回归中的变量选择问题,留一法交叉验证(LOOCV)的方法“渐近不一致”。用简单的英语来说,它倾向于选择变量太多的模型。Shao在模拟研究中表明,即使只有40个观察结果,LOOCV的表现也不能胜过其他交叉验证技术。

这篇论文有些争议,有些忽略了(发表10年后,我的化学计量学同事从未听说过,并且很乐意使用LOOCV进行变量选择...)。还有一种信念(对此我有罪),其结果超出了最初的有限范围。

那么问题是:这些结果延伸到多远?它们适用于以下问题吗?

  1. 逻辑回归/ GLM的变量选择?
  2. Fisher LDA分类的变量选择?
  3. 使用具有有限(或无限)内核空间的SVM进行变量选择?
  4. 比较模型中的分类,比如说使用不同内核的SVM?
  5. 比较线性回归模型,比如说将MLR与Ridge回归进行比较?
  6. 等等

化学计量学书籍中一定有一些东西。我认识的唯一使用LOO的人也正在这样做。

Answers:


14

您需要先指定模型的目的,然后才能说出Shao的结果是否适用。例如,如果目的是预测,则LOOCV很有道理,并且变量选择的不一致不是问题。另一方面,如果目的是识别重要变量并解释它们如何影响响​​应变量,那么Shao的结果显然很重要,LOOCV是不合适的。

AIC渐近为LOOCV,而BIC渐近等价于leave- out CV,其中 -仅线性模型的BIC结果。因此,BIC提供了一致的模型选择。因此,邵氏结果的简短总结是AIC可用于预测,而BIC可用于解释。v = Ñ [ 1 - 1 /日志Ñ - 1 ]vv=n[11/(log(n)1)]


1
我相信邵表示如果固定而增长,则倍CV不一致。ñkn
shabbychef

1
BIC的k随着n增长。
罗伯·海恩德曼

1
我只是默默地提醒一下,Shao论文的* IC <-> * CV对应关系适用于线性模型,而BIC仅等效于某些k的k倍CV。

实际上,我相信Shao会表明CV是不一致的,除非等于,其中是测试集中的样本数。因此,倍CV对于变量选择始终是不一致的。我误会了吗?用倍CV表示将样本分为组,对进行训练,对进行测试,然后重复次。然后为倍CV,其从不接近1nv/n1ninfnvkkkk n v / n = 1 / k kk1knv/n=1/kk
shabbychef

3
@mbq:否-Stone 1977的AIC / LOO证明采用线性模型。因此,与邵的结果不同,它被广泛引用。例如,请参见EOSL或《计算统计手册》中的模型选择章节,或者有关模型选择的任何不错的章节。它只花了一页多的时间,值得阅读,因为这避免了他必须计算Fisher信息/分数以得出结果的方式,因此有点简洁。
ars 2010年

7

这篇论文有些争议,有些忽略

并非如此,尽管模型选择理论肯定会被误解,但它在模型选择理论方面已广为人知。真正的问题是它与野外建模实践之间的相关性。假设您对拟调查的案例执行模拟,并确定LOOCV确实不一致。唯一的原因是因为您已经知道“真实”模型,因此可以确定恢复“真实”模型的可能性不会收敛到1。现象是由线性模型描述的,而“真实”模型是所考虑的现象的子集)?

邵的论文对于推进理论框架肯定是有趣的。它甚至提供了一些明确的信息:如果确实在考虑“真实”模型,那么我们就有一致性的结果可以挂在嘴上。但是我不确定您描述的情况的实际模拟会有多有趣。这就是为什么大多数类似EOSL的书都不会过多关注Shao的结果,而是将预测/泛化误差作为模型选择的标准的原因。

编辑:您问题的非常简短的答案是:当您执行最小二乘估计,二次损失函数时,邵的结果适用。没有更宽的范围。(我认为,Yang(2005?)上有一篇有趣的论文,调查了您是否可以具有一致性和效率,但答案是否定的。)


我认为是否了解野外的真实模型并不重要。如果有一个“真实”模型,我希望有一种更可能找到它的方法。
shabbychef

2
@shabbychef:我不同意。但是请注意:“如果有一个'真实'模型” 它正在考虑中..您怎么会先验地知道这一点?
ARS

1
还要注意,我的第二段实际上是在您的评论中指出这一点。这是一个不错的属性,但是还不清楚它在野外的适用性。即使从某种意义上说它令人感到安慰,也可能会被误导。
ars 2010年

2
@ars-请注意,“真实”模型的“线性”不是从线性模型中恢复“真实”模型的唯一方法。如果“真实”模型的非线性成分可以通过噪声项很好地建模(例如,非线性效应往往会相互抵消),那么我认为我们可以合理地将线性模型称为“真实”。这类似于假设线性泰勒级数的余数可忽略不计。
概率

1
所以,你可以重新状态的结果为:是否存在一个合理的线性逼近现实,则BIC /免洗退房手续将始终如一地发现,近似。AIC /遗留一劳永逸地找不到它。v
概率

6

我会说:无处不在,但我还没有看到对此的严格证明。背后的直觉是,在执行CV时,必须在训练足够大以建立合理模型的训练与测试足够大以使之成为明智基准的平衡之间保持平衡。
当处理数千个非常相似的对象时,选择一个对象与该对象集中存在的对象非常相似,因此结果可能过于乐观。
另一方面,在对象很少的情况下,LOO和k倍之间不会有重要的区别。仅仅是,我们不能使用它做任何事情。110/101


除了证明,我想知道是否有针对我列出的五个案例中任何一个的模拟研究。
shabbychef

想做些吗?

2
我做; 不过,我将不得不学习更多的R,以便在这里共享结果。
shabbychef 2010年

1
@shabbychef:曾经做过这个吗?顺便说一句,如果您仍在计算使用或不使用CV进行变量选择的化学计量师,则可以将我视为拒绝这样做的人,因为a)我还没有任何实际数据如果设置了足够多的案例(样本),甚至可以进行单个模型比较,并且b)对于我的光谱数据,通常在频谱的大部分区域上“涂抹”相关信息,所以我更喜欢不进行硬变量选择的正则化。
cbeleites支持Monica

1

1)@ars的回答提到Yang(2005),“可以共享AIC和BIC的优势吗?” 。松散地说,似乎您无法让模型选择标准同时达到一致性(如果确实存在正确的模型,并且正在考虑的模型之中,则倾向于选择正确的模型)和效率(达到最低均值)您选择的模型之间的平均误差平方)。如果您倾向于平均选择正确的模型,有时您会得到略小的模型……但是由于经常缺少真正的预测变量,因此与MSE相比,您总是比一些总是包含一些虚假预测变量的人做得更糟。

因此,如前所述,如果您更关心做出正确的预测而不是获得正确的正确变量,那么继续使用LOOCV或AIC很好。

2)但我也想指出他的其他两篇论文:Yang(2006)“比较学习方法进行分类”Yang(2007)“交叉验证的一致性以比较回归程序”。这些论文表明,如果您要比较收敛速度比线性模型慢的模型,则不需要训练数据与测试数据的比率缩小为0。

因此,更直接地回答您最初的问题1-6:将线性模型相互比较时,邵的结果适用。无论是进行回归还是分类,如果您正在比较收敛速度较慢的非参数模型(甚至将一个线性模型与一个非参数模型进行比较),则可以使用大多数数据进行训练,并且仍然具有模型选择一致的CV。 ..但是,Yang仍然认为LOOCV太极端了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.