Answers:
什么是“循环强化学习”?
递归强化学习(RRL)最早是在1996年引入的,用于训练神经网络交易系统。“递归”是指先前的输出作为输入的一部分输入到模型中。很快,它扩展到了外汇市场的交易中。
该RRL技术已被发现为建设金融交易系统成功的机器学习技术。
“递归强化学习”与常规“强化学习”(如Q学习算法)有什么区别?
在RRL方法不同于清楚地动态规划和加强算法如TD-学习和Q学习,其试图估算值函数的控制问题。
该RRL框架允许创建简洁大方问题表征,避免维度的贝尔曼的诅咒和效率提供了令人信服的优势:
RRL自然会产生实际有价值的动作(投资组合权重),而无需借助Q学习中的离散化方法。
与暴露于嘈杂数据集的Q学习相比,RRL具有更稳定的性能。由于动态优化的递归特性,Q学习算法(可能)对值函数的选择更为敏感,而RRL算法在选择目标函数和节省计算时间方面更为灵活。
使用RRL,可以通过最大化性能函数来优化交易系统,例如“利润”(交易成本后的收益),“财富”,财富的效用函数或经过风险调整的绩效比率(如“尖锐比率”)。
在这里,您将找到RRL算法的Matlab实现。
(深度)递归RL的区别在于,将代理观察值映射到其输出动作的函数是递归神经网络。
递归神经网络是一种神经网络,它以相同的方式针对每个时间步长依次处理每个观察。
原始论文:部分可观察的MDP的深度循环Q学习