据我了解,Q学习和策略梯度(PG)是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报,而政策梯度则直接预测了行动本身。
但是,这两种方法对我来说似乎都是相同的,即,预测一个动作的最大回报(Q学习)等同于预测直接采取该动作的概率(PG)。损失向后传播的方式是否有所不同?
据我了解,Q学习和策略梯度(PG)是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报,而政策梯度则直接预测了行动本身。
但是,这两种方法对我来说似乎都是相同的,即,预测一个动作的最大回报(Q学习)等同于预测直接采取该动作的概率(PG)。损失向后传播的方式是否有所不同?
Answers:
但是,这两种方法对我来说似乎是相同的,即预测动作的最大回报(Q学习)等同于预测直接采取动作的概率(PG)。
从理论上讲,这两种方法都是由“ 马尔可夫决策过程”构造驱动的,因此使用相似的符号和概念。此外,在简单的可解决环境中,您应该期望两种方法都能产生相同或至少等效的最佳策略。
但是,它们实际上在内部是不同的。两种方法之间最根本的区别在于,在学习过程中和作为输出(学习的策略)时,它们如何选择行动。在Q学习中,目标是通过找到最大值从一组离散的动作中学习单个确定性动作。通过策略梯度和其他直接策略搜索,目标是学习从状态到操作的映射,该映射可以是随机的,并且可以在连续的操作空间中工作。
结果,策略梯度方法可以解决基于价值的方法不能解决的问题:
大型连续动作空间。但是,使用基于值的方法,仍然可以通过离散化来近似-这并不是一个坏选择,因为在实践中,策略梯度中的映射函数必须是某种近似值。
随机政策。基于价值的方法不能解决最优策略是随机的,需要特定概率的环境,例如剪刀/纸/石头。那是因为在Q学习中没有控制动作概率的可训练参数,TD学习中的问题表述假设确定性主体可以是最佳的。
但是,基于价值的方法(例如Q学习)也具有一些优点:
速度。引导学习的TD学习方法通常比必须纯粹从环境中采样以评估进度的方法要快得多。
您可能还想使用一种或其他方法还有其他原因:
您可能想知道流程正在运行时的预期收益,以帮助与代理相关联的其他计划流程。
问题的状态表示可以更容易地将其自身应用于值函数或策略函数。价值函数可能与状态之间的关系非常简单,而政策函数则非常复杂且难以学习,反之亦然。
一些最先进的RL解算器实际上同时使用了这两种方法,例如Actor-Critic。这结合了价值和政策梯度方法的优势。