时间序列预测的随机森林回归

我正在尝试利用RF回归对造纸厂的性能进行预测。

我每分钟都有输入数据（进纸木浆的速度和数量等）以及机器的性能（生产的纸张，机器消耗的功率）的数据，我希望做出10分钟的预测在性能变量上领先。

我有12个月的数据，因此将其分为11个月的培训时间和最后一个月的测试时间。

到目前为止，我已经创建了10个新功能，每个性能变量的滞后值在1-10分钟之内，并使用这些功能以及输入来进行预测。测试集的性能一直很好（系统是可以预测的），但是我担心我的方法中缺少某些东西。

例如，在本文中，作者陈述了他们测试随机森林模型的预测能力的方法：

通过迭代添加新一周的数据，基于更新后的数据训练新模型并预测下一周的爆发次数来进行模拟

这与利用时间序列中的“后来的”数据作为测试有何不同？我是否应该使用这种方法以及测试数据集来验证我的RF回归模型？此外，这种对森林随机回归的“自回归”方法是否对时间序列有效，如果我对未来10分钟的预测感兴趣，我是否甚至需要创建这么多滞后变量？

— KRS乐趣
source

RF并非针对且未明确集成时间考虑因素而设计。既然如此，为什么要在分析中完全使用它们呢？有许多时间序列方法论。选一个。

— Mike Hunter

@DJohnson我想我会尝试模仿本文中的方法：尝试RF并将其与ARIMA进行比较。您是否认为这不值得花时间，仅使用ARIMA？

— KRS-fun

@DJohnson，自回归模型的机制与横截面回归模型的机制非常相似。一旦构造了滞后特征，为什么不像在横截面设置中那样使用RF？我认为尝试一下是公平的。但是您是对的，其他方法在时间序列中更受欢迎，OP也可能会从中探索中受益。

— 理查德·哈迪

我的观点是，射频就像锤子一样，一切都变成钉子。使用OP描述的数据，我的第一选择将是面板数据或合并模型，而不是ARIMA。

— Mike Hunter

我刚刚遇到了这个问题，并且阅读了几天前提到的论文。我正在比较随机森林和LSTM进行多元时间序列预测。有趣的是，当在训练数据中包含较少的时间时，LSTM会做得更好，但是随着我添加更多年的数据，这两种方法的结果都趋于真实结果。我认为这主要是因为这些功能提供了足够的信息来克服时间分量。无论如何，认为这很有趣。另外，除了在非常明显的季节性情况下，我从未见过ARIMA可以很好地工作，而多元ARIMA是...

— Hobbes

这与利用时间序列中的“后来的”数据作为测试有何不同？

您引用的方法称为“滚动原点”预测：我们进行预测的原点是“前滚”，并且训练数据会使用新的可用信息进行更新。比较简单的方法是“单一原点预测”，我们在其中选择一个单一原点。

滚动原点预测的优势在于它可以模拟一段时间内的预测系统。在单原点预测中，我们可能会偶然选择一个系统运行良好（或非常糟糕）的原点，这可能使我们对系统性能产生了错误的认识。

滚动原点预测的缺点之一是其对数据的更高要求。如果我们要用至少50个历史观测值来预测10个步骤，那么我们可以使用总共60个数据点来进行此单源。但是，如果我们想做10个重叠的滚动原点，那么我们需要70个数据点。

另一个缺点当然是其较高的复杂性。

不用说，您也不应在滚动原点预测中使用“后”数据，而应仅使用每次迭代中使用的原点之前的数据。

我是否应该使用这种方法以及测试数据集来验证我的RF回归模型？

如果您有足够的数据，滚动原点评估总是比单原点评估对我更有信心，因为它有望平均化原点的影响。

此外，这种对森林随机回归的“自回归”方法在时间序列上是否有效，如果我对未来10分钟的预测感兴趣，我是否甚至需要创建这么多滞后变量？

是的，滚动预测与单源预测对任何预测活动均有效。它不取决于您使用随机森林还是ARIMA或其他任何东西。

我们是否可以建议您是否需要滞后变量。最好与主题专家交谈，他们也可能会建议其他意见。只需将您的RF与滞后输入进行对比即可，而无需输入。而且还可以与ARIMA或ETS等标准基准进行比较，甚至可以与更简单的方法进行比较，这可能令人惊讶地难以超越。

— 斯蒂芬·科拉萨（Stephan Kolassa）
source