何时使用多个模型进行预测？

13

这是一个相当普遍的问题：

我通常发现，在尝试从样本中预测时间序列时，使用多个不同的模型要优于一个模型。有没有好的论文证明模型的组合将胜过单个模型？结合多个模型是否有最佳实践？

一些参考：

Hui Zoua，Yuhong Yang “结合时间序列模型进行预测” International Journal of Forecasting 20（2004）69– 84

time-series modeling model-comparison

— 尚恩
source

根据您在我的回答下方的评论/问题，我添加了我认为是带注释的很好的资料（不幸的是一本教科书）。我编辑了原始答案，因此它显示在最后。

— 道格

8

有时，这种模型称为集成体。例如，此页面很好地概述了其工作原理。另外，那里提到的参考资料也非常有用。

— 彼得·史密斯
source

3

实际上，混合是可能的合奏技术之一。特别是，当您组合相同种类的分类器时，有两种（增强型（如Adaboost）和装袋（如Random Forest）），以及混合时，您需要组合不同的分类器（Shane的问题是什么）。

3

对于融合，来自netflix竞赛的这篇论文值得一读：the-ensemble.com/content/feature-weighted-linear-stacking。

— Shane 2010年

2

气象学家也使用“合奏”一词是很有趣的，但不是将其组合使用：他们将其用于通过扰动数值模型的初始条件而获得的一组预测（如情景）。

— 罗宾吉拉德

1

@mbq实际上他们称自己为预报员，并且使用了大量统计数据……

— 罗宾吉拉德

1

@robin我知道，这就是为什么它被称为“合奏”而不是集合或类似内容的原因。

10

在我看来，NetFlix竞赛的最后一年（2009）极大地改变了整个社区的普遍假设，使之无法结合多种学习算法。

例如，除非经过明确的理由，否则我的正式培训（大学课程）以及后来的在职监督/指导教会我们避免算法组合，并且“提高我当前算法的分辨率”不是“确实是一个很好的理由。（其他人可能会有不同的经验-当然，我是基于我自己的经验来推断整个社区的观点，尽管我在编写性能不佳的ML算法方面的经验非常丰富。）

尽管如此，还是有一些“模式”可以接受以一种或另一种方式组合算法，并实际上提高了性能。对我而言，最常见的示例涉及一些在机器模式下配置的ML算法（将类标签分配给每个数据点），并且其中有两个以上的类（通常是更多类）。例如，当使用监督学习算法来解析四个类别时，我们将看到极好的分离，除了可以说III类与IV类。因此，在这六个决策边界中，只有一个解决了低于所需阈值的问题。尤其是当III类和IV类一起占数据的一小部分时，添加了仅针对这两个类的分辨率进行了优化的附加算法，是这种分析问题类型的相当常见的解决方案。（通常，``盲点''是主要算法的固有限制-例如，它是线性分类器，而III / IV决策边界是非线性的。

换句话说，当我们有一个适合处理环境（通常是流数据）并且在规范内执行的可靠算法时，唯一的盲点会导致它无法解析两个（或更多）类，在数据的一小部分中，最好“附加”另一种专用算法以捕获主要算法在系统上遗漏的内容。

最后，关于这个话题，我想极力推荐第17章合并多个学生，在机器学习介绍，2D，通过Ethem Alpaydin，麻省理工学院出版社，2010。这是第二版发布几个月前; 第一版于2004年出版，我怀疑它对这一主题的报道是否相同。（实际上，我推荐全文，但特别是该章，因为它与Shane的问题有关。）

作者在25页中总结了可能在学术文献或实践中已证明其效用的所有ML算法组合方案-例如装袋，增强，专家混合，堆叠概括，级联，投票，错误纠正等。 ..

— 道格
source

这是很好的信息。您知道涉及此的论文吗？

— Shane

（没有从SA收到您的评论的通知者）嗯，我写这篇文章时并没有提到任何论文，只是非正式地总结了我与您的问题相关的经验。我将浏览我的文件，然后查看与我相关的内容。

— doug 2010年

4

跟进Peter对整体方法的回应：

这在“统计学习的要素”中进行了介绍（例如，参见第288页）。
Witten和Frank的“数据挖掘：实用的机器学习工具和技术”在7.5节中进行了介绍，其中包括关于装袋，随机化，增强，可加回归，可加逻辑回归，选项树，逻辑模型树和堆栈的讨论。
这在Christopher M. Bishop的“模式识别和机器学习”的第14章中进行了介绍，包括平均贝叶斯模型，Boosting模型，委员会，基于树的模型和条件混合模型。

— 尚恩
source

2

最壮观的例子是Netflix的挑战，它真正提高了混合流行度。

1

这是一个略微超出领域的答案，仅涉及问题的“围绕组合多个模型的最佳实践”部分。这基本上是我的荣誉论文，除了我要处理的是复杂，高度非线性的模型，这些模型表现出混乱和噪音-气候模型。这不太可能广泛应用于许多领域，但可能在生态学或计量经济学中很有用。

直到不久以前，在气候建模社区中，模型基本上只是以未加权的平均值被粉碎在一起（通常是在偏差校正之后，其中涉及删除部分或全部采样期间的模型平均值）。这基本上是IPCC对第四次评估报告（4AR）和以前的报告所做的。

这或多或少是“ 组合加真相 ”学派的一个例子，其中默认或隐含地假设观测序列（例如，全球温度，局部降水等）是正确的，并且如果您采集了足够的样本（例如模型运行），模型运行中的噪声将消除（请参阅（1））。

最近，已经使用了基于性能加权来组合模型的方法。由于气候模型非常嘈杂，并且具有如此多的变量和参数，因此评估性能（我知道）的唯一方法是采用协方差，或者采用模型输出与观测到的时间序列之间的MSE。然后可以基于该度量对平均值进行加权来合并模型。（2）中对此有很好的概述。

这种组合模拟方法背后的一个假设是假设所有模型都是合理独立的 -如果某些模型高度依赖，则它们将使均值产生偏差。这个假设对于用于4AR（CMIP3）的数据集是相当公平的，因为该数据集是由来自多个建模组的少量模型运行组成的（另一方面，代码在建模社区中是共享的，因此可能仍然存在一些相互依赖关系要对此进行有趣的观察，请参阅（3））下一个评估报告CMIP5的数据集，没有这种偶然的属性-一些建模团队将提交一些运行，而另一些建模团队将提交数百个。来自不同团队的合奏可能是通过初始状态的扰动产生的，或者是通过更改模型的物理性质和参数设置而产生的。而且，这种超级合奏不会以任何系统的方式进行采样-只是谁带来了数据（被合理地接受）。这在本领域中被称为“ 机会合奏 ”。在这样的整体上使用未加权均值很有可能会使您偏向于对具有更多运行次数的模型的主要偏见（因为即使有数百个运行次数，真正独立运行的数量也可能更少）。

我的主管目前正在审查一篇论文，描述涉及绩效和独立性加权的模型组合过程。有一份会议论文摘要（4），我将在论文发表后发布其链接（缓慢的过程，请屏住呼吸）。基本上，本文描述了一个过程，该过程涉及获取模型误差的协方差（model-obs），并对与所有其他模型（即，具有高度相关性的误差的模型）具有高协方差的模型进行加权。还计算模型误差方差，并将其用作性能加权组件。

值得注意的是，气候建模显然受到总体上数值建模的各种变化的巨大影响。有一种叫做“笑测试”的东西-如果您得出的模型运行结果暗示到2050年全球平均温度将为+ 20°C，则将其排除在外，因为它在物理上显然无关紧要。显然，这种测试是相当主观的。我还没有要求，但是我希望在不久的将来。

这就是我对当前领域中状态模型组合的理解。显然我还在学习，所以如果我遇到任何特别的问题，我会回来并更新此答案。

（1）Tebaldi，C.和Knutti，R.，2007年。在概率气候预测中使用多模型合奏。皇家学会的哲学交易A：数学，物理和工程科学，365（1857），第2032至2075页。

（2）Knutti，R.等人，2010年。IPCC评估和组合多模式气候预测专家会议。

（3）Masson，D.和Knutti，R.，2011年。气候模型家谱。地理学。Res。Lett，38（8），第L08703页。

（4）Abramowitz，G.和Bishop，C.，2010年。定义和加权集合预测中的模型依赖性。在AGU秋季会议摘要中。p。07。

— 没了101
source

第一段你的意思是“复杂的，高度非线性的模型”吧？对于我的工作领域（非气候领域），我经常发现使用不同的模型通常不会导致很大的不同预测。但是，仅以非临时方式启动并运行以组合模型的计算对我们来说是一个巨大的障碍。我希望可以得到更准确的预测，但是我没有时间组合模型并准确估算这些预测中的误差。

— 概率

谢谢，固定。我可以使用计算集群，因此计算能力不是一个大问题，但是，是的，即使正确设置我正在使用的模型也很麻烦，而且已经编写了。这就是CMIP存在的原因，因此人们不必每次都经历所有麻烦。如果您正在做类似的事情，会对您感兴趣的领域感兴趣。

— naught101 2012年