什么是循环强化学习


20

最近,我遇到了“循环强化学习”这个词。我了解什么是“递归神经网络”和什么是“强化学习”,但是找不到有关“递归强化学习”的更多信息。

有人可以向我解释什么是“循环强化学习”,以及“循环强化学习”和常规的“强化学习”(如Q学习算法)之间的区别。

Answers:


15

什么是“循环强化学习”?

递归强化学习(RRL)最早是在1996年引入的,用于训练神经网络交易系统。“递归”是指先前的输出作为输入的一部分输入到模型中。很快,它扩展到了外汇市场的交易中。

RRL技术已被发现为建设金融交易系统成功的机器学习技术。

“递归强化学习”与常规“强化学习”(如Q学习算法)有什么区别?

RRL方法不同于清楚地动态规划加强算法TD-学习Q学习,其试图估算值函数的控制问题。

RRL框架允许创建简洁大方问题表征,避免维度的贝尔曼的诅咒和效率提供了令人信服的优势:

RRL自然会产生实际有价值的动作(投资组合权重),而无需借助Q学习中的离散化方法。

与暴露于嘈杂数据集的Q学习相比,RRL具有更稳定的性能。由于动态优化的递归特性,Q学习算法(可能)对值函数的选择更为敏感,而RRL算法在选择目标函数和节省计算时间方面更为灵活。

使用RRL,可以通过最大化性能函数来优化交易系统,例如“利润”(交易成本后的收益),“财富”,财富的效用函数或经过风险调整的绩效比率(如“尖锐比率”)。U()

在这里,您将找到RRL算法的Matlab实现。


参考文献

交易强化学习

交易系统和投资组合的强化学习

通过反复强化学习进行外汇交易

具有经常性强化学习(RRL)的股票交易

使用Q学习和递归强化学习进行算法交易

探索用于自动外汇交易的算法-构建混合模型


@AntonDanilov我不确定您是否知道这一点。想出这个主意的人(您的第一个参考文献J Moody)一直在使用这种算法来管理一只基金,而他的表现远非壮观。
horaceT '18年

因此,很高兴知道,但是它如何改变了我的答案
Anton Danilov

2

(深度)递归RL的区别在于,将代理观察值映射到其输出动作的函数是递归神经网络。

递归神经网络是一种神经网络,它以相同的方式针对每个时间步长依次处理每个观察。

原始论文:部分可观察的MDP的深度循环Q学习

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.