我之前听过以下表达:
“优化是统计中所有邪恶的根源”。
例如,该线程的最高答案是在选择模型时过于激进地进行优化的危险而做出该声明。
我的第一个问题是:这句话是否特别应归于任何人?(例如,在统计资料中)
据我了解,该声明涉及过拟合的风险。传统观点认为适当的交叉验证已经可以解决这个问题,但是看起来这个问题还不止于此。
即使遵循严格的交叉验证协议(例如100个嵌套的10倍CV),统计学家和ML实践者也应该警惕过度优化模型吗?如果是这样,我们如何知道何时停止搜索“最佳”模型?
第二个问题肯定是独立存在的,不是吗?
—
russellpierce
@Glen_b我在该线程中留下了引用。但是,为澄清起见,Dikran已经建议在单独的线索中展开针对他的回答的后续问题,我怀疑应该在评论中解决这个问题。
—
2013年
@ RussellS.Pierce当我加载它并开始研究原始问题和可能的答案时,包含当前问题的编辑(即使它是在我发表评论之前进行的)并没有出现,它仅包含我要描述的内容作为那里的一个反问。现在的问题很好。
—
Glen_b-恢复莫妮卡
交叉验证问题在此处另一个问题中涉及:stats.stackexchange.com/questions/29354/…交叉验证可以帮助避免过度拟合,但不能完全解决问题。知道何时停止可能是一个棘手的问题,我认为不可能有一个通用的解决方案。
—
迪克兰有袋博物馆,2013年
“正确的交叉验证已经可以解决这个问题,但是看起来这个问题还不止于此。” 是的:问题仍然是交叉验证估计的方差(结合有问题的多重测试)。如果有时间,我会为您的相关问题写一个答案。
—
cbeleites支持Monica