这是一个相当普遍的问题:
我通常发现,在尝试从样本中预测时间序列时,使用多个不同的模型要优于一个模型。有没有好的论文证明模型的组合将胜过单个模型?结合多个模型是否有最佳实践?
一些参考:
- Hui Zoua,Yuhong Yang “结合时间序列模型进行预测” International Journal of Forecasting 20(2004)69– 84
这是一个相当普遍的问题:
我通常发现,在尝试从样本中预测时间序列时,使用多个不同的模型要优于一个模型。有没有好的论文证明模型的组合将胜过单个模型?结合多个模型是否有最佳实践?
一些参考:
Answers:
有时,这种模型称为集成体。例如,此页面很好地概述了其工作原理。另外,那里提到的参考资料也非常有用。
在我看来,NetFlix竞赛的最后一年(2009)极大地改变了整个社区的普遍假设,使之无法结合多种学习算法。
例如,除非经过明确的理由,否则我的正式培训(大学课程)以及后来的在职监督/指导教会我们避免算法组合,并且“提高我当前算法的分辨率”不是“确实是一个很好的理由。(其他人可能会有不同的经验-当然,我是基于我自己的经验来推断整个社区的观点,尽管我在编写性能不佳的ML算法方面的经验非常丰富。)
尽管如此,还是有一些“模式”可以接受以一种或另一种方式组合算法,并实际上提高了性能。对我而言,最常见的示例涉及一些在机器模式下配置的ML算法(将类标签分配给每个数据点),并且其中有两个以上的类(通常是更多类)。例如,当使用监督学习算法来解析四个类别时,我们将看到极好的分离,除了可以说III类与IV类。因此,在这六个决策边界中,只有一个解决了低于所需阈值的问题。尤其是当III类和IV类一起占数据的一小部分时,添加了仅针对这两个类的分辨率进行了优化的附加算法,是这种分析问题类型的相当常见的解决方案。(通常,``盲点''是主要算法的固有限制-例如,它是线性分类器,而III / IV决策边界是非线性的。
换句话说,当我们有一个适合处理环境(通常是流数据)并且在规范内执行的可靠算法时,唯一的盲点会导致它无法解析两个(或更多)类,在数据的一小部分中,最好“附加”另一种专用算法以捕获主要算法在系统上遗漏的内容。
最后,关于这个话题,我想极力推荐第17章合并多个学生,在机器学习介绍,2D,通过Ethem Alpaydin,麻省理工学院出版社,2010。这是第二版发布几个月前; 第一版于2004年出版,我怀疑它对这一主题的报道是否相同。(实际上,我推荐全文,但特别是该章,因为它与Shane的问题有关。)
作者在25页中总结了可能在学术文献或实践中已证明其效用的所有ML算法组合方案-例如装袋,增强,专家混合,堆叠概括,级联,投票,错误纠正等。 ..
跟进Peter对整体方法的回应:
最壮观的例子是Netflix的挑战,它真正提高了混合流行度。
这是一个略微超出领域的答案,仅涉及问题的“围绕组合多个模型的最佳实践”部分。这基本上是我的荣誉论文,除了我要处理的是复杂,高度非线性的模型,这些模型表现出混乱和噪音-气候模型。这不太可能广泛应用于许多领域,但可能在生态学或计量经济学中很有用。
直到不久以前,在气候建模社区中,模型基本上只是以未加权的平均值被粉碎在一起(通常是在偏差校正之后,其中涉及删除部分或全部采样期间的模型平均值)。这基本上是IPCC对第四次评估报告(4AR)和以前的报告所做的。
这或多或少是“ 组合加真相 ”学派的一个例子,其中默认或隐含地假设观测序列(例如,全球温度,局部降水等)是正确的,并且如果您采集了足够的样本(例如模型运行),模型运行中的噪声将消除(请参阅(1))。
最近,已经使用了基于性能加权来组合模型的方法。由于气候模型非常嘈杂,并且具有如此多的变量和参数,因此评估性能(我知道)的唯一方法是采用协方差,或者采用模型输出与观测到的时间序列之间的MSE。然后可以基于该度量对平均值进行加权来合并模型。(2)中对此有很好的概述。
这种组合模拟方法背后的一个假设是假设所有模型都是合理独立的 -如果某些模型高度依赖,则它们将使均值产生偏差。这个假设对于用于4AR(CMIP3)的数据集是相当公平的,因为该数据集是由来自多个建模组的少量模型运行组成的(另一方面,代码在建模社区中是共享的,因此可能仍然存在一些相互依赖关系要对此进行有趣的观察,请参阅(3))下一个评估报告CMIP5的数据集,没有这种偶然的属性-一些建模团队将提交一些运行,而另一些建模团队将提交数百个。来自不同团队的合奏可能是通过初始状态的扰动产生的,或者是通过更改模型的物理性质和参数设置而产生的。而且,这种超级合奏不会以任何系统的方式进行采样-只是谁带来了数据(被合理地接受)。这在本领域中被称为“ 机会合奏 ”。在这样的整体上使用未加权均值很有可能会使您偏向于对具有更多运行次数的模型的主要偏见(因为即使有数百个运行次数,真正独立运行的数量也可能更少)。
我的主管目前正在审查一篇论文,描述涉及绩效和独立性加权的模型组合过程。有一份会议论文摘要(4),我将在论文发表后发布其链接(缓慢的过程,请屏住呼吸)。基本上,本文描述了一个过程,该过程涉及获取模型误差的协方差(model-obs),并对与所有其他模型(即,具有高度相关性的误差的模型)具有高协方差的模型进行加权。还计算模型误差方差,并将其用作性能加权组件。
值得注意的是,气候建模显然受到总体上数值建模的各种变化的巨大影响。有一种叫做“笑测试”的东西-如果您得出的模型运行结果暗示到2050年全球平均温度将为+ 20°C,则将其排除在外,因为它在物理上显然无关紧要。显然,这种测试是相当主观的。我还没有要求,但是我希望在不久的将来。
这就是我对当前领域中状态模型组合的理解。显然我还在学习,所以如果我遇到任何特别的问题,我会回来并更新此答案。
(1)Tebaldi,C.和Knutti,R.,2007年。在概率气候预测中使用多模型合奏。皇家学会的哲学交易A:数学,物理和工程科学,365(1857),第2032至2075页。
(2)Knutti,R.等人,2010年。IPCC评估和组合多模式气候预测专家会议。
(3)Masson,D.和Knutti,R.,2011年。气候模型家谱。地理学。Res。Lett,38(8),第L08703页。
(4)Abramowitz,G.和Bishop,C.,2010年。定义和加权集合预测中的模型依赖性。在AGU秋季会议摘要中。p。07。