我想我了解引导程序的基本原理,但是不确定如何使用引导程序进行模型选择或避免过度拟合。
例如,对于模型选择,您是否只选择在其自举样本中产生最低误差(也许是方差?)的模型?
是否有任何文章讨论如何使用自举进行模型选择或验证?
编辑:请参阅此线程,以及@ mark999的答案,以获取此问题后面的更多上下文。
@suncoolsu如果我有模型A,B和C供我选择,我通常会在以下情况下使用交叉验证或自举来选择模型:1)我对预测的准确性/排名感兴趣,并且2)我没有足够的数据支持验证集。为什么这不是一个好主意(我知道嵌套验证对于功能选择等很重要)。
—
B_Miner 2011年
@ mark999在此线程中的答案建议进行引导程序验证,以作为在完整数据集上学习模型的一种解决方案,同时仍能应对过度拟合。这个答案在很大程度上激发了这个问题,该线程中的原始问题也应为该问题添加上下文。
—
Amelio Vazquez-Reina
很抱歉-可能这是我是一名统计学家-但我认为交叉验证和自举是两种不同的方式。交叉验证很棒,必须进行交叉验证(以及自举)。但是,如果您处于在A,B,C(仅三种型号)之间进行选择的情况下,BIC可能是更好的选择。正如我所说,解决方案取决于当前的问题,多种方法可能是合适的。
—
suncoolsu 2011年
与BIC相比,AIC通常产生的不良情况更少。
—
弗兰克·哈雷尔