Q学习和策略梯度方法之间有什么关系?


20

据我了解,Q学习和策略梯度(PG)是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报,而政策梯度则直接预测了行动本身。

但是,这两种方法对我来说似乎都是相同的,即,预测一个动作的最大回报(Q学习)等同于预测直接采取该动作的概率(PG)。损失向后传播的方式是否有所不同?

Answers:


19

但是,这两种方法对我来说似乎是相同的,即预测动作的最大回报(Q学习)等同于预测直接采取动作的概率(PG)。

从理论上讲,这两种方法都是由“ 马尔可夫决策过程”构造驱动的,因此使用相似的符号和概念。此外,在简单的可解决环境中,您应该期望两种方法都能产生相同或至少等效的最佳策略。

但是,它们实际上在内部是不同的。两种方法之间最根本的区别在于,在学习过程中和作为输出(学习的策略)时,它们如何选择行动。在Q学习中,目标是通过找到最大值从一组离散的动作中学习单个确定性动作。通过策略梯度和其他直接策略搜索,目标是学习从状态到操作的映射,该映射可以是随机的,并且可以在连续的操作空间中工作。

结果,策略梯度方法可以解决基于价值的方法不能解决的问题:

  • 大型连续动作空间。但是,使用基于值的方法,仍然可以通过离散化来近似-这并不是一个坏选择,因为在实践中,策略梯度中的映射函数必须是某种近似值。

  • 随机政策。基于价值的方法不能解决最优策略是随机的,需要特定概率的环境,例如剪刀/纸/石头。那是因为在Q学习中没有控制动作概率的可训练参数,TD学习中的问题表述假设确定性主体可以是最佳的。

但是,基于价值的方法(例如Q学习)也具有一些优点:

  • p一种sθθ

  • 速度。引导学习的TD学习方法通​​常比必须纯粹从环境中采样以评估进度的方法要快得多。

您可能还想使用一种或其他方法还有其他原因:

  • 您可能想知道流程正在运行时的预期收益,以帮助与代理相关联的其他计划流程。

  • 问题的状态表示可以更容易地将其自身应用于值函数或策略函数。价值函数可能与状态之间的关系非常简单,而政策函数则非常复杂且难以学习,反之亦然

一些最先进的RL解算器实际上同时使用了这两种方法,例如Actor-Critic。这结合了价值和政策梯度方法的优势。


当您说演员评论家结合了两种方法的优点时,您是什么意思?据我了解,演员根据状态来评估采取的最佳行动,而评论家则评估该状态的价值,然后向演员提供奖励。在我看来,将它们视为单个“政策”部门仍然看起来像是政策梯度。为什么这实际上像Q学习?
Gulzar

1
@Guizar:评论家使用基于价值的方法来学习(例如Q学习)。因此,总体而言,行动者批评者是价值方法和政策梯度方法的结合,并且受益于这种结合。相对于“香草” PG的一项显着改进是,可以在每个步骤而不是每个发作结束时评估梯度。如果您正在寻找有关此主题的更详细的答案,则应在网站上提问。
尼尔·斯莱特

@Guizar:实际上,当我对优势行为者批评家(将基线调整为基于行动值)和批评家(通常是更简单的状态值)之间的困惑时,实际上是在刮擦(例如,Q学习)。但是,其余的我的描述仍然相同,评论家通常使用基于值的TD方法进行更新,其中Q学习也是一个示例。
尼尔·斯莱特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.