交叉验证(CV)和广义交叉验证(GCV)统计数据


23

我发现交叉验证(CV)统计信息和与线性模型Y=Xβ+ε(具有正态,均等误差向量ε)。

一方面,Golub,Heath和Wahba将GCV估计λ^为(p。216)

V(λ)给出的 V \ left(\ lambda \ right)的极小值= \ frac {\ frac {1} {n} \ left \ | \ left(I-A \ left(\ lambda \ right)\ right)y \ right \ | ^ 2} {\ left(\ frac {1} {n} \ mathrm {tr} \ left(I-A \ left(\ lambda \ right)\ right)\ right )^ 2}

Vλ=1个ñ一世-一种λÿ21个ñŤ[R一世-一种λ2
其中一种λ=XXŤX+ñλ一世-1个XŤ

另一方面,埃夫隆(Efron)定义了与V \ left(0 \ right)相同的概念V0(第24页),但他将此概念的引入归因于Craven&Wahba,其定义(第377页)基本相同如Golub,Heath&Wahba的上述定义。

这是否意味着0使V \ left(\ lambda \ right)最小化Vλ

类似地,Golub,Heath和Wahba将\ lambda的CV估计值定义为λ(p。217)作为

Pλ=1个ñķ=1个ñ[Xβķλ]ķ-ÿķ2

其中βķλ是估算值

β^λ=XŤX+ñλ一世-1个XŤÿ

βķ个数据点ÿ一世删去。

作者将CV估算(也称为PRESS估算)的引入归因于Allen(同上,“ Allen PRESS”)。然而,在Allen的论文中,PRESS估算定义为(p。126)为ñP0(在Efron的文章中定义为P0(第24页))。

同样,这是否意味着0最小化Pλ


  1. Allen,DavidM。变量选择与数据参数化之间的关系以及一种预测方法。技术计量学,卷。第16号,第1号(1974年2月),第125-127页

  2. Craven,Peter和Wahba,Grace。使用样条函数平滑噪声数据。Numerische Mathematik 31,(1979),第377-403页

  3. 埃弗隆·布拉德利。Logistic回归的表观错误率有多高?技术报告编号 232.斯坦福大学统计系(1985年4月)

  4. Golub,Gene H.,Heath和Grace Wahba。广义交叉验证作为一种选择良好岭参数的方法。技术计量学,卷。21,No.2(1979年5月),第215-223页


7
您是否忘了提及此方法将适用于岭回归以及至少平方?我完全对是什么感到困惑,直到我看到底部的论文标题了λ
Shadowtalker

1
在标题中删除“通用交叉验证”,然后在标题中添加“岭回归”。这是GridSearchCV()对于RidgeCV()默认的设置:
HoofarLotusX

Answers:


2

我认为这些评论指向的是答案,但请不要直言不讳。所以我会直率的。

这里引用的V公式特定于线性脊回归。他们没有说它与PRESS相同,而是说它是PRESS的旋转不变版本。“旋转不变”部分是使它广义化的原因。

埃夫隆(Efron)的论文是关于逻辑回归的,它是针对这种情况而定制的。如果您想查看两个上下文之间的数学转换,那么最适合阅读的书是Hastie,Tibshirani和Freedman撰写的2ed of Statistics Learning。他们免费在线提供该书:https : //web.stanford.edu/~hastie/Papers/ESLII.pdf。关于GCV的另一个有用的读物​​是Simon Wood的Generalized Additive Models。他的治疗方法将GCV通常与回归和逻辑回归中的应用集成在一起。

如果您看一下ESL书,第244页,您会发现基本上是相同的符号体系。他们将您拥有的大型矩阵产品称为“平滑器”矩阵(我说它是Hat矩阵或近亲)。他们将平滑器描述为从到的映射小号ÿÿÿ^

ÿ^=小号ÿ

小号可用于计算留出的CV值,数据中的每一行一个。对于线性模型,矩阵在回归诊断中扮演Hat矩阵的角色。但是,他们说解决这一问题可能在计算上具有挑战性或不必要,并且GCV方法是同一想法的更通用的版本。小号

他们提供了近似 GCV 的公式:

GCVF^=1个ñ一世=1个ñ[ÿ一世-F^X一世1个-Ť[R一种CË小号/ñ]2

在许多模型中,这在行为上与AIC非常相似。该是参数的有效数量。Ť[R一种CË小号

您引用的片段通常是的痕迹。据我了解,在抽象的GCV中,是撇除交叉验证的近似版本,但在某些情况下(我相信是岭回归),这是准确的。这是Golub论文的重点。ñλ小号

祝您好运,如果您了解更多,请回信。


谢谢。我已经在5年前发布了我的问题,从那时起,我已经忘记了大部分材料,因此我无法评估您的答案以判断它的好坏(看起来不错)或不好,并且由于这个原因我也不接受。不过,感谢您的发布。希望它对可能浏览此页面的其他人有用。
伊万·阿德
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.