深度Q学习中的情节和时代有什么区别?


14

我正在尝试理解著名的论文“在深度强化学习中玩Atari”(pdf)。我不清楚时代情节之间的区别。在算法,外部循环遍历各个情节,而在图2中,x轴标记为epoch。在强化学习的背景下,我不清楚一个时代的含义。时期是情节循环的外部循环吗? 1个2

在此处输入图片说明

在此处输入图片说明


1
那么...多少集成为一个时代?
Lewen

Answers:


10
  • =一连串的状态,动作和奖励,以终端状态结束。例如,玩整个游戏可以被视为一个情节,当一个玩家输掉/赢了/平局时达到了最终状态。有时候,您可能更愿意将一集定义为几局(例如:“每个情节是几十个游戏,因为每位玩家的游戏得分均达到21分”)。
  • 在神经网络术语中,所有训练示例的一个历元 =一个前进和一个后退。

在您提到的论文中,它们似乎更具有时代意义,因为它们只是将一个时代定义为一定数量的权重更新。因此,正如您在问题中提到的,您可以将一个时期视为情节循环的外部循环。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.