使用交叉验证时针对一种标准错误规则的经验论证

是否有任何经验研究证明使用一个标准误差规则来支持简约？显然，这取决于数据的数据生成过程，但是任何分析大量数据集的内容都会非常有趣。

通过交叉验证（或更普遍地通过任何基于随机化的过程）选择模型时，将应用“一个标准错误规则”。

假设我们考虑由复杂性参数索引的模型，使得恰好在时比 “复杂” 。进一步假设我们通过某种随机化过程（例如，交叉验证）评估模型的质量。让表示的“平均”质量，例如，在许多交叉验证运行，平均出球袋预测误差。我们希望最小化此数量。 $M_\tau$ $\tau\in\mathbb{R}$ $M_\tau$ $M_{\tau'}$ $\tau>\tau'$ $M$ $q(M)$ $M$

但是，由于我们的质量度量来自某种随机化程序，因此具有可变性。令表示随机试验中的质量标准误差，例如，交叉验证试验中的袋外预测误差的标准偏差。 $s(M)$ $M$ $M$

然后我们选择模型，其中是最小的使得 $M_\tau$ $\tau$ $\tau$

q (M_{τ}) \leq q (M_{τ^{'}}) + s (M_{τ^{'}}),

$q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}),$

其中索引（平均）最佳模型。 $\tau'$ $q(M_{\tau'})=\min_\tau q(M_\tau)$

也就是说，我们选择最简单的模型（最小的 $\tau$ ），在随机化过程中，该模型的误差不超过最佳模型 $M_{\tau'}$ 。

我已经在以下地方找到了这种“一个标准错误规则”，但是从来没有任何明确的理由：

Breiman，Friedman，Stone＆Olshen（1984）的 分类树和回归树中的第80页
Tibshirani，Walther和Hastie的《通过间隙统计估计数据集中的簇数》中的第415页（JRSS B，2001年）（参考Breiman等人）。
Hastie，Tibshirani和Friedman在2009年 的《统计学习要素》中的第61和244页
Hastie，Tibshirani和Wainwright（2015）在《稀疏的 统计学习》中的第13页

cross-validation model-selection regularization

— 戴维·索尔
source

尽管我知道您所说的“一个标准错误规则”指的是什么，但我强烈怀疑很多人不会，但是如果这样做的话，会对这个问题感兴趣。也许您可以编辑以添加一些解释性句子？（只是一个建议...）

— jbowman 2013年

@jbowman：我只是编辑了问题以解释一个标准错误规则，所以对它进行了修改，因为我对此也很感兴趣……而下面的答案并没有真正回答我的问题。任何人，请随时改进。

— S. Kolassa-恢复莫妮卡2015年

相关新闻：stats.stackexchange.com/questions/138569

— 变形虫说莫妮卡（

这将是一篇很好的论文主题。似乎是明智的工程启发，但并非所有SEH都在实践中起作用，因此对大量数据集进行研究将很有趣。我确实想知道是否存在涉及多个假设检验的问题，这可能意味着它校准得不是很好，但是我认为这比不做任何可能会导致这种过度调整的数据集要好得多问题。问题是，这是否会使在没有问题的数据集上的性能变得更差？

— 迪克兰有袋动物博物馆，

Answers:

以下内容不是一项实证研究，这就是为什么我本来希望将其发布为评论，而不是答案的原因-但事实证明，评论太长了。

Cawley＆Talbot（《机器学习研究》，2010年）提请注意模型选择阶段的过度拟合与模型拟合阶段的过度拟合之间的差异。

第二种过度拟合是人们最熟悉的一种：给定特定模型，我们不想对其过度拟合，即，使其过于紧密地适应我们通常具有的单个数据集的特定特质。（在这里，缩小/正则化可以通过以较小的偏倚度与较大的方差减少度进行交易来提供帮助。）

但是，Cawley＆Talbot认为，在模型选择阶段，我们也可以过度拟合。毕竟，我们通常通常只有一个数据集，并且要在复杂程度不同的不同模型之间做出决定。评估每个候选模型以选择一个模型通常涉及拟合该模型，可以使用或不使用正则化来完成。但是这种评估本身又是一个随机变量，因为它取决于我们拥有的特定数据集。因此，我们对“最佳”模型的选择本身可能会产生偏差，并且会表现出方差，这取决于我们可以从总体中提取的所有数据集中的特定数据集。

因此，Cawley＆Talbot认为，简单地选择在此评估中表现最佳的模型很可能是偏差较小的选择规则-但可能会出现较大的差异。也就是说，给定来自同一数据生成过程（DGP）的不同训练数据集，此规则可以选择非常不同的模型，然后将其拟合并用于在再次遵循相同DGP的新数据集中进行预测。因此，限制模型选择过程的方差，但对简单模型产生小的偏差可能会产生较小的样本外误差。

Cawley＆Talbot并没有明确地将其与一个标准错误规则联系起来，他们关于“规范化模型选择”的部分非常短。但是，一个标准错误规则将完全执行此正则化，并考虑模型选择中的方差与袋外交叉验证错误的方差之间的关系。

例如，下面是Hastie，Tibshirani和Wainwright（2015）的《统计学习与稀疏性》中的图2.3 。模型选择方差由黑线的最小值给出。在这里，最小值不是很明显，并且该线是相当弱的凸面，因此模型选择可能存在较大的不确定性。当然，OOB CV误差估计的方差由表示标准误差的多条淡蓝色线给出。

— S. Kolassa-恢复莫妮卡
source

哈哈，尝试执行此搜索（或在查询中添加连字符）。

— 变形虫说莫妮卡（Reonica Monica）

如果只有一个正则化参数，那么这种过度拟合就不会有太大问题（因为优化问题只有一个自由度），但是如果您有许多正则化参数（例如，神经网络的自动相关性确定）那么它很快就会变得非常庞大。一种sd方法是一种避免过度优化正则化参数的不错的启发式方法，但尝试并提出一些理由更充分的方法（1/2）

— Dikran Marsupial

我们（Marsupial和我的夫人）研究的两种方法是使用经过分析整合的超超参数（jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf来规范超参数））或将某些超参数转换为参数并将它们直接也适合数据，但以增加额外的正则化参数为代价（但这仍然会降低模型选择的自由度，因此仍然有帮助）（theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf）（2/2）

— Dikran子母

顺便说一句，模型选择中的过度拟合可能会导致模型过度拟合或欠拟合训练集，这会使问题的诊断更加棘手。从贝叶斯角度看，最好的办法不是优化，而是边缘化，但这在计算上是昂贵的或棘手的，或两者兼而有之。1SD规则的一大优势在于，它处于频谱的另一端，并且作为一名工程师，我喜欢简单的东西可以工作； o）（3/2）

λ

$\lambda$

— Dikran Marsupial

stats.stackexchange.com/questions/24799是@DikranMarsupial提到的关于优化lambda-vs-marginalizing-over-lambda主题的一个线程。该讨论是关于岭回归的，对于套索/弹性网/等，边缘化可能更棘手，而CV的优点在于它易于实现。

— 变形虫说莫妮卡（Reonica Monica）恢复了

为了获得经验依据，请参阅这些Tibshirani数据挖掘课程注释的第12页，其中显示了针对特定建模问题的CV误差与lambda的关系。建议似乎是，在一定值以下时，所有lambda都会产生相同的CV错误。这是有道理的，因为与脊回归不同，LASSO通常不只是或什至主要用于提高预测精度。它的主要卖点是通过消除最不相关/最不重要的预测变量，使模型更简单易懂。

现在，要了解一个标准错误规则，让我们考虑一下从变化得到的一系列模型。Tibshirani的数据告诉我们，我们有一堆中到高复杂度模型，它们的预测精度几乎相同，还有一堆低复杂度模型，它们不擅长预测。我们应该选择什么？好吧，如果我们使用，我们可能会对简约模型感兴趣，所以我们可能更喜欢用最简单的模型来很好地解释我们的数据，而不是用爱因斯坦来解释。那么，与所有这些高复杂度模型“一样好”的最低复杂度模型又如何呢？衡量“约好”的好方法是什么？一个标准错误。 $\lambda$ $L_1$

— 保罗
source

我没有这个答案的逻辑。例如：“与岭回归不同，LASSO不是提高预测准确性的机制”-为什么？为什么L1与L2如此不同？在下一句话中，您将描述L1对于低lambda的情况，但是我认为L2对于低lambda的情况也相同。

— 变形虫说莫妮卡（Reonica Monica）

请注意，这是一种启发式的解释，它依赖于一些未阐明的假设，就像所有预测变量都可提供信息一样。如果您有大量的噪声预测变量和一些有用的噪声预测变量，则确实可能存在一个lambda值，该值可以清晰，显着地优化CV指标：与选择信息预测变量子集相对应的那个值。当lambda降低到该值以下时，您只是让噪声进入并损害了模型。

— Paul

我认为，如果您使用简约的广义定义，其中更规范化->更简单的模型，则该参数对ridge和lasso同样适用。但是，由于问题和数据集使用的类型不同，因此L1的动机比L2的动机容易。使用L1的人对拥有一个简单的模型更感兴趣，并且他们更有可能遇到Tibshirani展示的CV误差曲线。

— 保罗

摘自经典的ESL文字，请参见第40页。224：“交叉验证通常使用“一个标准误差”规则，在该规则中，我们选择最简约的模型，其误差不超过最佳模型误差的一个标准误差。” 给出的示例是子集回归，并显示了膝盖曲线与预测变量数量的关系。曲线在正确的预测变量＃上方平坦，这再次与我上面给出的解释一致。没有提到严格或数学上的理由。

— Paul

因此，我认为这里的主要问题是最小值的确定不明确，但是在最小值的1 sigma之内最规范的模型是明确定义的。

— Paul

拉索估计器选择的变量数量由惩罚值决定。越大，所选变量的集合越小。令为选定变量的集合，并将其用作惩罚。 $\lambda$ $\lambda$ $\hat S(\lambda)$ $\lambda$

令为使用最小交叉验证功能选择的惩罚。可以证明。其中是实际上不是0的变量的集合。（真正变量的集合严格包含在使用交叉验证的最小值作为惩罚的估计集合中。） $\lambda^ \star$ $P(S_0 \subset \hat S(\lambda^\star))\rightarrow 1$ $S_0$

这应该在Bühlmann和van de Geer的《高维数据统计》中进行报告。

惩罚值通常是通过交叉验证来选择的；这意味着很有可能选择了太多变量。为了减少所选变量的数量，使用一个标准错误规则会增加一点惩罚。 $\lambda$

— 唐贝
source

您可以在这里详细一点吗？这似乎很有趣。

— DavidShor 2014年

这意味着很有可能选择了太多变量。-对我来说不是很明显，为什么，为什么以高概率过几个变量无法选择。毕竟，正如Stephen Kolassa的回答所指出的，交叉验证的选择应该给出的估计，该估计几乎没有偏差，但可能具有很高的方差。

λ

$\lambda$

— 理查德·哈迪

我认为事实是，选择比所需更多的变量会比选择不足的变量减少预测性能。因此，CV倾向于选择更多变量。

— Donbeo

看看这本书springer.com/gp/book/9783642201912并在这里套索章节drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM

— Donbeo

这是我的意思

— Donbeo