我正在阅读Richard S.Sutton和Andrew G.Barto撰写的《强化学习:入门》(初稿,2017年11月5日)。
在第271页上,给出了突发性蒙特卡洛策略梯度方法的伪代码。看着这个伪代码,我无法理解为什么折扣率似乎出现2次,一次处于更新状态,而第二次出现在返回状态。[见下图]
看来,步骤1之后的步骤返回只是第一步返回的截断。此外,如果您仅在书的上方看一页,则会发现方程式的折现率仅为1(收益率内的那一)。
为什么伪代码似乎不同?我的猜测是我误会了一些东西:
我正在阅读Richard S.Sutton和Andrew G.Barto撰写的《强化学习:入门》(初稿,2017年11月5日)。
在第271页上,给出了突发性蒙特卡洛策略梯度方法的伪代码。看着这个伪代码,我无法理解为什么折扣率似乎出现2次,一次处于更新状态,而第二次出现在返回状态。[见下图]
看来,步骤1之后的步骤返回只是第一步返回的截断。此外,如果您仅在书的上方看一页,则会发现方程式的折现率仅为1(收益率内的那一)。
为什么伪代码似乎不同?我的猜测是我误会了一些东西:
Answers:
我想补充说明一下,您似乎没有误解任何东西,书中的式(13.6)确实与伪代码不同。
现在,我没有您刚才提到的那本书的版本,但是我确实有一份2018年3月22日以后的草案,关于这个特定主题的文字似乎很相似。在此版本中:
这是一个微妙的问题。
如果您看一下原始论文中的A3C算法(第4页和伪代码的附录S3),那么他们的参与者评论算法(相同的偶发和持续问题算法)相对于参与者而言的伽马系数要小一些。 Sutton and Barto书中的情节问题的批评者伪代码(2019年1月版第332页,http://incompleteideas.net/book/the-book.html )。Sutton and Barto书中有额外的“第一”伽玛,如您的图片所示。那么,这本书还是A3C论文是错误的?并不是的。
钥匙在p。萨顿和巴托(Sutton and Barto)书中的199:
如果存在折现(伽马<1),则应将其视为终止的一种形式,只需在(9.2)的第二项中加入一个因子即可。
一个微妙的问题是,对折现系数伽玛有两种解释:
文字实现:
您可以选择对伽玛的任何一种解释,但是您必须注意算法的后果。我个人更喜欢坚持解释1,因为它更简单。因此,我在A3C论文中使用了该算法,而不是Sutton and Barto书中的算法。
您的问题与REINFORCE算法有关,但我一直在讨论演员批评家。您有与两个伽玛解释和REINFORCE中的额外伽玛完全相同的问题。