优化:统计中所有邪恶的根源?


14

我之前听过以下表达:

“优化是统计中所有邪恶的根源”。

例如,该线程的最高答案是在选择模型时过于激进地进行优化的危险而做出该声明。

我的第一个问题是:这句话是否特别应归于任何人?(例如,在统计资料中)

据我了解,该声明涉及过拟合的风险。传统观点认为适当的交叉验证已经可以解决这个问题,但是看起来这个问题还不止于此。

即使遵循严格的交叉验证协议(例如100个嵌套的10倍CV),统计学家和ML实践者也应该警惕过度优化模型吗?如果是这样,我们如何知道何时停止搜索“最佳”模型?


第二个问题肯定是独立存在的,不是吗?
russellpierce

@Glen_b我在该线程中留下了引用。但是,为澄清起见,Dikran已经建议在单独的线索中展开针对他的回答的后续问题,我怀疑应该在评论中解决这个问题。
2013年

3
@ RussellS.Pierce当我加载它并开始研究原始问题和可能的答案时,包含当前问题的编辑(即使它是在我发表评论之前进行的)并没有出现,它仅包含我要描述的内容作为那里的一个反问。现在的问题很好。
Glen_b-恢复莫妮卡

2
交叉验证问题在此处另一个问题中涉及:stats.stackexchange.com/questions/29354/…交叉验证可以帮助避免过度拟合,但不能完全解决问题。知道何时停止可能是一个棘手的问题,我认为不可能有一个通用的解决方案。
迪克兰有袋博物馆,2013年

1
“正确的交叉验证已经可以解决这个问题,但是看起来这个问题还不止于此。” 是的:问题仍然是交叉验证估计的方差(结合有问题的多重测试)。如果有时间,我会为您的相关问题写一个答案。
cbeleites支持Monica

Answers:


14

引用是Donald Knuth引用的解释,他本人将引用归因于Hoare。上一页的三个摘录:

过早的优化是编程中所有(或至少大部分)邪恶的根源。

过早的优化是万恶之源。

15年后,Knuth将其称为“ Hoare's Dictum”。

我不知道我是否同意统计释义*。统计数据中有很多与优化无关的“邪恶”。

即使坚持严格的交叉验证协议(例如100个嵌套的10倍CV),统计学家和ML实践者也应该始终警惕过度优化模型吗?如果是这样,我们如何知道何时停止搜索“最佳”模型?

我认为关键是要充分了解(或尽可能充分地了解)您要执行的程序的属性。

* I won't presume to comment on Knuth's use of it, since there's little I could say that he couldn't rightly claim to understand ten times as well as I do.


2
谢谢,这是有帮助的。我认为编程中的过早优化与过度拟合之间存在一些有趣的联系。我想知道我们社区中是否有类似的引号,以及在统计中是否有严格的方法可以解决这个问题。
阿梅里奥·瓦兹克斯·雷纳

5
我使用该词组的灵感来自Knuth,虽然原因有所不同,但从贝叶斯角度来看,几乎所有优化都是不好的事情,而边缘化则更好。
迪克兰有袋博物馆,2013年

3

假设优化涉及(数据驱动的)模型选择,则可以采用两种方式(在统计数据中)分析报价:

  • 如果您关心预测,则最好使用模型平均而不是选择单个模型。
  • 如果您在用于拟合模型的同一数据集上选择一个模型,则会对假定您先验选择了模型的常规推理工具/过程造成严重破坏。(假设您进行逐步回归,并通过交叉验证来选择模型大小。对于频繁分析,所选模型的通常p值或CI将是不正确的。我确定涉及模型的贝叶斯分析存在相应的问题选择。)
  • 如果与您考虑的模型系列相比,您的数据集足够大,那么过度拟合甚至可能不是问题,并且可能不需要选择模型。(假设您将使用具有很少变量和非常多观察值的数据集来拟合线性回归。无论如何,任何虚假变量的系数估计都应该接近于0,因此也许您不必费心选择一个较小的模型。)
  • 如果数据集足够小,则可能没有足够的数据来满足问题的“真实”或“最佳”模型。在这种情况下,做好模型选择甚至意味着什么?(返回线性回归:如果您的目标是选择与正确的变量“真实”的模式,即使你没有足够的数据来衡量他们都充分,你应该只挑选其中你最大的模型有足够的数据?)
  • 最后,即使很明显可以并且应该进行模型选择,交叉验证也不是万能的。它具有多种变体,甚至具有影响其性能的调整参数(折叠数,或火车:测试比率)。因此,不要盲目相信它。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.