使用交叉验证时针对一种标准错误规则的经验论证
是否有任何经验研究证明使用一个标准误差规则来支持简约?显然,这取决于数据的数据生成过程,但是任何分析大量数据集的内容都会非常有趣。 通过交叉验证(或更普遍地通过任何基于随机化的过程)选择模型时,将应用“一个标准错误规则”。 假设我们考虑由复杂性参数索引的模型,使得恰好在时比 “复杂” 。进一步假设我们通过某种随机化过程(例如,交叉验证)评估模型的质量。让表示的“平均”质量,例如,在许多交叉验证运行,平均出球袋预测误差。我们希望最小化此数量。 τ ∈ [R 中号τ 中号τ ' τ > τ '中号q (中号)中号MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM 但是,由于我们的质量度量来自某种随机化程序,因此具有可变性。令表示随机试验中的质量标准误差,例如,交叉验证试验中的袋外预测误差的标准偏差。M Ms(M)s(M)s(M)MMMMMM 然后我们选择模型,其中是最小的使得 τ τMτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), 其中索引(平均)最佳模型。τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) 也就是说,我们选择最简单的模型(最小的 ττ\tau),在随机化过程中,该模型的误差不超过最佳模型Mτ′Mτ′M_{\tau'}。 我已经在以下地方找到了这种“一个标准错误规则”,但是从来没有任何明确的理由: Breiman,Friedman,Stone&Olshen(1984)的分类树和回归树中的第80页 Tibshirani,Walther和Hastie的《通过间隙统计估计数据集中的簇数》中的第415页(JRSS B,2001年)(参考Breiman等人)。 Hastie,Tibshirani和Friedman在2009年的《统计学习要素》中的第61和244页 Hastie,Tibshirani和Wainwright(2015)在《稀疏的统计学习》中的第13页