为什么乐团如此不合理地有效


14

理所当然的是,一群学习者会带来最佳的模型结果-例如,单个模型赢得像Kaggle这样的比赛就变得越来越少了。对于合奏为何如此有效,是否有理论解释?


1
我的猜测是中央极限定理,但我没有理由。

Answers:


13

对于特定的模型,您可以提供数据,选择功能,选择超参数等。与现实相比,它犯了三种类型的错误:

  • 偏差(由于模型复杂度太低,数据中存在抽样偏差)
  • 差异(由于数据中的噪音,数据过度拟合)
  • 您尝试预测的现实的随机性(或数据集中缺乏预测性的特征)

集成平均其中的一些模型。出于明显的原因,由于采样偏差而导致的偏差将不会得到解决,它可以修复某些模型复杂性偏差,但是在不同模型之间所产生的方差错误是非常不同的。尤其是低相关性模型在这方面犯了非常不同的错误,某些模型在要素空间的某些部分表现良好。通过平均这些模型,您可以大大减少这种差异。这就是为什么合奏发光。


6

选定的答案很棒,但我想补充两点:

  1. 已经观察到,对人类预测进行平均比任何单个预测提供更好的预测。这被称为人群智慧。现在,您可能会争辩说这是因为某些人拥有不同的信息,所以您实际上是在平均信息。但是不,即使对于诸如猜测罐子中的豆子数量之类的任务也是如此。我认为这与上面给出的有关数据挖掘模型的某些原因有关。
  2. 一些技术(例如神经网络中的辍学方法)(在训练期间的每次迭代中,您仅使用神经网络的一部分)所产生的结果类似于神经网络的集成。这样做的理由是,您可以有效地强制节点执行与其他节点相同的预测器工作,从而有效地创建元集合。我说这是为了表明我们可能能够介绍传统模型中集成的一些优点。

6

出于理论和实践原因,乐团在预测中获胜。

如果我们的意思是根据先前事件的知识按顺序预测下一个事件,则存在最佳预测的基本理论。Solomonoff预测(Solomonoff 1964)在几种意义上证明是最优的,包括“将学会只用绝对的最小数据量就可以正确预测任何可计算序列”。(Hutter,Legg和Vitanyi,2007年)Solomonoff预测器根据Kolmogorov程序的复杂度和程序迄今为止分配给数据的概率,对所有与现有数据兼容的程序进行加权,并结合Epicurean(“保留所有理论”)和贝叶斯框架中的Ockham(“首选简单理论”)哲学。

Solomonoff预测的最优属性解释了您所引用的可靠发现:对模型,源或专家进行平均可以改善预测,并且平均预测甚至比最佳单个预测值还要好。在实践中看到的各种合奏方法可以看作是Solomonoff预测的可计算近似值-像MML(Wallace 2005)这样的方法明确地探索了这种联系,尽管大多数不是这样。

Wallace(2005)指出,所罗门诺夫(Solomonoff)预测变量不是简约的-它拥有无限的模型库-但大多数预测能力不可避免地属于相对较小的一组模型。在某些领域中,单个最佳模型(或几乎无法区分的模型家族)可能会占很大一部分预测能力,并且胜过一般合奏,但在理论很少的复杂领域中,很可能没有哪个家族能获得大部分后验概率,因此,对合理的候选者进行平均可以改善预测。为了赢得Netflix奖,Bellkor团队融合了450多种模型(Koren,2009年)。

人类通常会寻求一个很好的解释:在诸如物理学之类的“高理论”领域中,它们很好地起作用。的确,如果它们抓住了潜在的因果动力,那么它们几乎是无与伦比的。但是,在可用的理论与现象(例如电影推荐或地缘政治)不完全吻合的情况下,单个模型将表现不佳:所有模型都不完整,因此任何模型都不应占主导地位。因此,最近的重点是合奏(用于机器学习)和人群的智慧(用于专家),以及IARPA ACE等计划的成功,尤其是Good Judgment Project(Tetlock和Gardiner,2015年)。

参考文献

  • M. Hutter,S。Legg和P. Vitanyi,“算法概率”,《学术百科全书》,第1卷。2007年2月,第1页。2572。
  • Y. Koren,“ Netflix大奖的BellKor解决方案”,2009年。
  • 雷·所罗门诺夫(1964年3月)。“归纳推理的形式理论第一部分”(PDF)。信息与控制7(1):1-22。doi:10.1016 / S0019-9958(64)90223-2。
  • 雷·所罗门诺夫(1964年6月)。“归纳推理的形式理论第二部分”(PDF)。信息与控制7(2):224–254。doi:10.1016 / S0019-9958(64)90131-7。
  • PE Tetlock,专家政治判断:这有多好?我们如何知道?,普林斯顿大学出版社,2005年。
  • Tetlock,PE和Gardner,D.(2015)。超级预测:预测的艺术和科学。纽约:皇冠。
  • CS Wallace,“通过最小消息长度进行统计和归纳推理”,Springer-Verlag,2005年。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.