强化学习可以应用于时间序列预测吗?
arxiv.org/ftp/arxiv/papers/1803/1803.03916.pdf
—
EnriquePérezHerrero,
强化学习可以应用于时间序列预测吗?
Answers:
是的,但是通常来说,它不是完成任务的好工具,除非在预测和系统的持续行为之间有重要的反馈。
要构造一个强化学习(RL)问题,使用RL预测或控制算法值得考虑,那么您需要确定一些组件:
处于可以按顺序测量/观察的许多状态之一的环境。
可以观察当前状态并以相同顺序执行操作的代理。
状态在序列中的演变应取决于当前状态和所采取的措施的某种组合,并且也可能是随机的。
RL代理可以观察或测量到的奖励信号。奖励的价值应取决于与国家演变相同的因素,但可以不同的方式取决于它们。
通过将预测视为动作,可以使时间序列预测的一般情况适合于此,使状态演化仅取决于当前状态(加上随机性)以及基于状态和动作的报酬。这将允许应用RL,但是因果关系只能以一种方式流动-从环境进入预测模型。这样,例如,您可以获得的最大回报就是使用一些有关预测正确性的指标。好的或坏的预测的结果不会影响原始环境。从本质上讲,您最终将在RL层中包装该序列的一些预测模型(例如神经网络),可以很容易地用基础数据集处理来替代有监督的学习问题。
您可以将系列预测问题有意义地扩展为RL问题的一种方法是,扩大环境范围,以包括基于预测做出的决策以及受这些决策影响的系统状态。例如,如果您正在预测股票价格,则将您的投资组合和资金包括在该州中。同样,动作不再是预测,成为买卖指令。这不会改善价格预测组件(您最好使用更合适的工具(例如LSTM)将其视为一个单独的问题,但是将整个问题视为RL问题。