14 我正在尝试理解著名的论文“在深度强化学习中玩Atari”(pdf)。我不清楚时代和情节之间的区别。在算法,外部循环遍历各个情节,而在图2中,x轴标记为epoch。在强化学习的背景下,我不清楚一个时代的含义。时期是情节循环的外部循环吗? 1个1个22 neural-networks terminology reinforcement-learning q-learning — 广告 source 1 那么...多少集成为一个时代? — Lewen
10 一集 =一连串的状态,动作和奖励,以终端状态结束。例如,玩整个游戏可以被视为一个情节,当一个玩家输掉/赢了/平局时达到了最终状态。有时候,您可能更愿意将一集定义为几局(例如:“每个情节是几十个游戏,因为每位玩家的游戏得分均达到21分”)。 在神经网络术语中,所有训练示例的一个历元 =一个前进和一个后退。 在您提到的论文中,它们似乎更具有时代意义,因为它们只是将一个时代定义为一定数量的权重更新。因此,正如您在问题中提到的,您可以将一个时期视为情节循环的外部循环。 — 弗兰克·德农库特 source