强化学习可以应用于时间序列预测吗？

是的，但是通常来说，它不是完成任务的好工具，除非在预测和系统的持续行为之间有重要的反馈。

要构造一个强化学习（RL）问题，使用RL预测或控制算法值得考虑，那么您需要确定一些组件：

处于可以按顺序测量/观察的许多状态之一的环境。
可以观察当前状态并以相同顺序执行操作的代理。
状态在序列中的演变应取决于当前状态和所采取的措施的某种组合，并且也可能是随机的。
RL代理可以观察或测量到的奖励信号。奖励的价值应取决于与国家演变相同的因素，但可以不同的方式取决于它们。

通过将预测视为动作，可以使时间序列预测的一般情况适合于此，使状态演化仅取决于当前状态（加上随机性）以及基于状态和动作的报酬。这将允许应用RL，但是因果关系只能以一种方式流动-从环境进入预测模型。这样，例如，您可以获得的最大回报就是使用一些有关预测正确性的指标。好的或坏的预测的结果不会影响原始环境。从本质上讲，您最终将在RL层中包装该序列的一些预测模型（例如神经网络），可以很容易地用基础数据集处理来替代有监督的学习问题。

您可以将系列预测问题有意义地扩展为RL问题的一种方法是，扩大环境范围，以包括基于预测做出的决策以及受这些决策影响的系统状态。例如，如果您正在预测股票价格，则将您的投资组合和资金包括在该州中。同样，动作不再是预测，成为买卖指令。这不会改善价格预测组件（您最好使用更合适的工具（例如LSTM）将其视为一个单独的问题，但是将整个问题视为RL问题。

— 尼尔·斯莱特
source