Answers:
这里有一份不错的调查报告。
简要介绍一下,除了Q学习方法之外,还有一类基于策略的方法,您可以直接学习最佳策略,而不是学习Q函数。 使用。
这些方法包括流行的REINFORCE算法,这是一种策略梯度算法。TRPO和GAE是相似的策略梯度算法。
在策略梯度上还有很多其他变体,可以将其与参与者批评框架中的Q学习结合使用。A3C算法-异步优势参与者-批评者-就是这样的参与者-批评者算法,也是强化学习中非常强大的基线。
您也可以搜索最佳政策 通过模仿最佳控制算法的输出,这称为引导策略搜索。
除了都在无模型设置中应用的Q学习和策略梯度(两种算法都不能维护世界模型)之外,还有一些基于模型的方法可以估算世界状态。这些模型很有价值,因为它们可以大大提高采样效率。
基于模型的算法并非仅适用于策略梯度或Q学习。一种常见的方法是执行状态估计/学习动力学模型,然后在估计的状态之上训练策略。
因此,对于分类,一个细分将是
基于策略的方法可以进一步细分为