集合时间序列模型


13

我需要自动进行时间序列预测,而且我事先不知道这些序列的功能(季节性,趋势,噪音等)。

我的目标不是为每个系列获得最佳模型,而是避免出现非常糟糕的模型。换句话说,每次都会出现小错误不是问题,但是偶尔会出现大错误是一个问题。

我认为我可以通过组合使用不同技术计算的模型来实现。

也就是说,尽管ARIMA对于特定系列来说是最好的方法,但对于其他系列来说可能不是最好的方法。指数平滑也一样。

但是,如果我将每种技术中的一个模型组合在一起,即使一个模型不太好,另一个模型也会使估算值更接近真实值。

众所周知,ARIMA在长期行为良好的序列中效果更好,而指数平滑在短期噪声序列中表现突出。

  • 我的想法是结合使用两种技术生成的模型以获得更可靠的预测,这有意义吗?

可能有很多方法可以合并这些模型。

  • 如果这是一个好方法,我应该如何将它们结合起来?

一个简单的预测平均值方法是一个选择,但是如果我根据模型的某种优度度量对平均值进行加权,也许可以得到更好的预测。

  • 合并模型时对方差的处理方式是什么?

您的想法听起来不错,但我不确定使用自动拟合ARIMA模型。也许对于单变量序列...传统观点认为Holt-Winters可以自动使用,因此非常健壮,因此可以作为方法之间进行样本外比较的基准。
Scortchi-恢复莫妮卡

@Scortchi我忘了提到所有系列都是单变量的!;)我同意Holt-Winters在自动使用时的表现确实不错,但是我打算从另一种模型中获得更多意见,以避免出现预测不太理想的情况。有时硬件显示出奇怪的趋势行为。
若奥·丹尼尔

1
即使在单变量情况下,我也难以想象自动程序-需要考虑趋势(随机或确定性),可能的转换,季节性(乘性或加性),并且我发现要使用一个模型,我需要使用很多先验知识关于特定系列在现实中代表什么是明智的。尽管如此,布丁的证明还是在饮食上-我真的只是想说不要忘记用简单的技术进行样本外比较-祝你好运。
Scortchi-恢复莫妮卡

Answers:


15

合并预测是一个好主意。(我认为这是学术预测家一致同意的为数不多的事情之一,这并不夸张。)

我碰巧写了一篇论文,回顾了权重预测的不同组合方法:http : //www.sciencedirect.com/science/article/pii/S0169207010001032基本上,使用(Akaike)权重并不能持续改善组合在简单的或修剪过的/优胜劣汰的均值或中位数之前,我个人会在实施可能无法产生明确收益的复杂程序之前三思而后行(不过请记住,根据信息标准,组合始终优于选择单个方法)。当然,这可能取决于您拥有的特定时间序列。

我在上面的文章中讨论了合并预测间隔,但没有合并方差。我似乎回想起不久之前在IJF上关注此问题的一篇论文,因此您可能想通过IJF的后期刊物寻找“结合”或“结合”。

其他一些结合了预测的论文在这里(来自1989年,但有一篇评论)这里这里(也研究密度)以及这里这里。其中许多指出,仍然很难理解为什么预测组合经常优于单个选定模型。倒数第二篇是关于M3预测竞赛的论文;他们的主要发现之一是(第458页上的数字(3)),“平均而言,各种方法组合的准确性要优于组合的特定方法,并且与其他方法相比,效果很好。” 这些论文的最后一部分发现,组合不一定比单个模型具有更好的性能,但是它们可以大大降低灾难性故障的风险(这是您的目标之一)。更多文学应该容易的找到国际杂志预测的,该杂志预测的 并用于计量经济学或供应链文献中的更具体应用。


1
关于组合模型的绝佳观点!您的回答很有建设性!
若奥·丹尼尔

@Stephan Kolassa,您对Burg的方法中的组合前后预测器有什么意见吗?
denis 2015年

@denis:我不熟悉前向或后向预测变量,也不熟悉Burg的方法,对不起...虽然我认为结合使用预测/预测(也称为集合方法)通常会很有益。
Stephan Kolassa 2015年

嗨斯蒂芬,很棒的文章。日志站点似乎已更改,并且似乎不再可能从主站点下载R代码。现在将其托管在其他站点上吗?
2015年

@Ian:如果您不订阅,则可能无法访问它。给我发送电子邮件(在此处找到我的地址),我将把脚本发送过来。给我几天时间来挖掘它们。
Stephan Kolassa,2015年

1

为什么不进一步指定呢?我认为您所生产的任何一种模型都不会比特定选择更好或足够好。

话虽如此,如果您可以将选择范围缩小到可以测试的范围,并且可以标准化数据输入,那么为什么不使用R编写自动测试程序呢?

假设您确定自己的数据将落在由五个模型和一个“后备”估算的范围内。假设您可以通过不同的测试来表征输入。然后继续编写一个R(或类似程序)为您运行该算法。如果您可以根据测试数据生成要运行哪个模型的流程图(即决策树的任何点都是二进制的),则此方法有效。

如果这不是一个选择,因为该决定可能不是二进制的,则建议您基于适用的测试实施一个评级系统,并通过网格运行一些“极端案例”模拟数据,以查看结果是否符合您的要求。

您可以很明显地将这些东西结合起来,例如,对非平稳性的测试可能会给出肯定的“是”或“否”的定义,而其他属性可能会落入诸如多重共线性之类的范围内。
您可以先将其绘制在纸上,然后构建它,并以期望的已知分布模拟它。

然后,只要有新数据到达就运行R程序。我认为无需将多个模型与您最可能拥有的计算能力结合起来。


缩小选择范围是一个好主意,例如,如果数据显然是季节性的,则不使用非季节性方法。但是即使如此,我仍然认为对多个季节模型(加性与乘性性季节性,有无趋势等)进行平均平均提高预测的准确性。至少那是我从相当多的预测社区以及M3和类似的预测比赛中获得的印象。
Stephan Kolassa 2013年

您是否还有其他论文?我的意思是,这将是直接但相关的研究主题。这是一个非常有趣的想法,尽管从直觉上来说我并不同意它一定比动态模型网格更好。
IMA

好点子。我对答案进行了编辑,以包括一个带有更多文献指导的附加段落。我同意这是直接且相关的,并且仍然很难理解为什么平均预测通常会提高准确性。
Stephan Kolassa 2013年

是的,我的意思是您可以为各种分布问题建模,并从计算和根本上解决它。感谢您的论文,非常有趣。
IMA

0

有一个很好的简单公式可以将两种预测方法结合在一起,您只需对它们进行加权,第一种方法乘以a,另一种方法乘以(1- a),其中a通过最小化此组合预测的方差来找到。如您所知,两种预测方法都存在误差,您可以计算将取决于“ a”的组合的误差。当每种方法的平均值= 0时,计算就很简单。对于组合两种以上方法,公式仍然是“简单的”,因为您可以“手动”进行分析计算,也可以使用EXCEL的Solver选项


您能参考一下这种方法吗?
horaceT
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.