强化学习算法概述


9

我目前正在搜索“强化学习算法概述”,也许是它们的分类。但是除了Sarsa和Q-Learning +深度Q-Learning之外,我真的找不到任何流行的算法。

维基百科为我提供了关于不同的通用强化学习方法的概述,但是没有引用实现该方法的不同算法。

但是也许我混淆了一般的方法和算法,并且基本上像其他机器学习领域一样,在这一领域没有真正的分类。可以给我一个简短的介绍,或者只是一个参考,让我开始阅读不同的方法,它们之间的差异以及实现该方法的示例算法吗?


Answers:


14

这里有一份不错的调查报告

简要介绍一下,除了Q学习方法之外,还有一类基于策略的方法,您可以直接学习最佳策略,而不是学习Q函数。 π 使用。

这些方法包括流行的REINFORCE算法,这是一种策略梯度算法。TRPO和GAE是相似的策略梯度算法。

在策略梯度上还有很多其他变体,可以将其与参与者批评框架中的Q学习结合使用。A3C算法-异步优势参与者-批评者-就是这样的参与者-批评者算法,也是强化学习中非常强大的基线。

您也可以搜索最佳政策 π 通过模仿最佳控制算法的输出,这称为引导策略搜索。

除了都在无模型设置中应用的Q学习和策略梯度(两种算法都不能维护世界模型)之外,还有一些基于模型的方法可以估算世界状态。这些模型很有价值,因为它们可以大大提高采样效率。

基于模型的算法并非仅适用于策略梯度或Q学习。一种常见的方法是执行状态估计/学习动力学模型,然后在估计的状态之上训练策略。

因此,对于分类,一个细分将是

  • Q或V功能学习
  • 基于策略的方法
  • 基于模型

基于策略的方法可以进一步细分为

  • 政策梯度
  • 影评人
  • 政策搜寻
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.