我一直在阅读Google的DeepMind Atari 论文,并且试图理解“体验重播”的概念。许多其他强化学习论文(尤其是AlphaGo论文)中都有经验重播,所以我想了解它的工作原理。以下是一些摘录。
首先,我们使用一种称为经验重播的生物学启发机制来对数据进行随机化,从而消除观察序列中的相关性并平滑数据分布的变化。
然后,本文阐述如下:
虽然存在其他用于在强化学习环境中训练神经网络的稳定方法(例如,神经拟合Q迭代),但这些方法涉及从头进行数百次迭代的网络重复训练。因此,与我们的算法不同,这些方法效率低下,无法在大型神经网络中成功使用。我们使用图1所示的深度卷积神经网络对近似值函数进行参数化,其中是迭代 Q网络的参数(即权重)。为了执行体验重播,我们在每个时间步长存储座席的体验。在数据集中。在学习期间,我们对经验样本(或小批)应用Q学习更新,这些样本是从存储的样本池中随机抽取的。迭代处的Q学习更新使用以下损失函数:
用外行的话来说,什么是体验重播?它有什么好处?