时间序列预测的随机森林回归


10

我正在尝试利用RF回归对造纸厂的性能进行预测。

我每分钟都有输入数据(进纸木浆的速度和数量等)以及机器的性能(生产的纸张,机器消耗的功率)的数据,我希望做出10分钟的预测在性能变量上领先。

我有12个月的数据,因此将其分为11个月的培训时间和最后一个月的测试时间。

到目前为止,我已经创建了10个新功能,每个性能变量的滞后值在1-10分钟之内,并使用这些功能以及输入来进行预测。测试集的性能一直很好(系统是可以预测的),但是我担心我的方法中缺少某些东西。

例如,在本文中,作者陈述了他们测试随机森林模型的预测能力的方法:

通过迭代添加新一周的数据,基于更新后的数据训练新模型并预测下一周的爆发次数来进行模拟

这与利用时间序列中的“后来的”数据作为测试有何不同?我是否应该使用这种方法以及测试数据集来验证我的RF回归模型?此外,这种对森林随机回归的“自回归”方法是否对时间序列有效,如果我对未来10分钟的预测感兴趣,我是否甚至需要创建这么多滞后变量?


2
RF并非针对且未明确集成时间考虑因素而设计。既然如此,为什么要在分析中完全使用它们呢?有许多时间序列方法论。选一个。
Mike Hunter

2
@DJohnson我想我会尝试模仿本文中的方法:尝试RF并将其与ARIMA进行比较。您是否认为这不值得花时间,仅使用ARIMA?
KRS-fun

4
@DJohnson,自回归模型的机制与横截面回归模型的机制非常相似。一旦构造了滞后特征,为什么不像在横截面设置中那样使用RF?我认为尝试一下是公平的。但是您是对的,其他方法在时间序列中更受欢迎,OP也可能会从中探索中受益。
理查德·哈迪

1
我的观点是,射频就像锤子一样,一切都变成钉子。使用OP描述的数据,我的第一选择将是面板数据或合并模型,而不是ARIMA。
Mike Hunter

5
我刚刚遇到了这个问题,并且阅读了几天前提到的论文。我正在比较随机森林和LSTM进行多元时间序列预测。有趣的是,当在训练数据中包含较少的时间时,LSTM会做得更好,但是随着我添加更多年的数据,这两种方法的结果都趋于真实结果。我认为这主要是因为这些功能提供了足够的信息来克服时间分量。无论如何,认为这很有趣。另外,除了在非常明显的季节性情况下,我从未见过ARIMA可以很好地工作,而多元ARIMA是...
Hobbes

Answers:


6

这与利用时间序列中的“后来的”数据作为测试有何不同?

您引用的方法称为“滚动原点”预测:我们进行预测的原点是“前滚”,并且训练数据会使用新的可用信息进行更新。比较简单的方法是“单一原点预测”,我们在其中选择一个单一原点。

滚动原点预测的优势在于它可以模拟一段时间内的预测系统。在单原点预测中,我们可能会偶然选择一个系统运行良好(或非常糟糕)的原点,这可能使我们对系统性能产生了错误的认识。

滚动原点预测的缺点之一是其对数据的更高要求。如果我们要用至少50个历史观测值来预测10个步骤,那么我们可以使用总共60个数据点来进行此单源。但是,如果我们想做10个重叠的滚动原点,那么我们需要70个数据点。

另一个缺点当然是其较高的复杂性。

不用说,您也不应在滚动原点预测中使用“后”数据,而应仅使用每次迭代中使用的原点之前的数据。

我是否应该使用这种方法以及测试数据集来验证我的RF回归模型?

如果您有足够的数据,滚动原点评估总是比单原点评估对我更有信心,因为它有望平均化原点的影响。

此外,这种对森林随机回归的“自回归”方法在时间序列上是否有效,如果我对未来10分钟的预测感兴趣,我是否甚至需要创建这么多滞后变量?

是的,滚动预测与单源预测对任何预测活动均有效。它不取决于您使用随机森林还是ARIMA或其他任何东西。

我们是否可以建议您是否需要滞后变量。最好与主题专家交谈,他们也可能会建议其他意见。只需将您的RF与滞后输入进行对比即可,而无需输入。而且还可以与ARIMA或ETS等标准基准进行比较,甚至可以与更简单的方法进行比较,这可能令人惊讶地难以超越

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.