Answers:
套袋的主要用例是通过将低偏差模型捆绑在一起来减少它们的差异。Bauer和Kohavi在具有里程碑意义的论文“ 投票分类算法的实证比较:装袋,提升和变体 ”中对此进行了经验研究。它通常按广告宣传工作。
但是,与普遍看法相反,装袋不能保证减少差异。最近(我认为)更好的解释是,套袋可减少杠杆作用点的影响。杠杆点是那些对结果模型产生不成比例影响的杠杆点,例如最小二乘回归中的离群值。杠杆点很少会积极影响最终的模型,但这种情况下套袋会降低性能。看一看Grandvalet的“ 套袋平等影响 ”。
因此,最后回答您的问题:套袋的效果很大程度上取决于杠杆点。几乎没有理论上的保证,只是装袋线性增加了装袋尺寸的计算时间!也就是说,它仍然是一种广泛使用且非常强大的技术。例如,在学习标签噪声时,装袋可以产生更强大的分类器。
Rao和Tibshirani给予的Bayesian解释“ 外的引导方法,进行模型平均和选择 ”:
从这个意义上讲,自举分布表示参数的(近似)非参数,非信息后验分布。但是,可以毫不费力地获得该自举分布-无需正式指定先验条件,也不必从后验分布中取样。因此,我们可能会认为引导分布是穷人的“贝叶斯后验”。