Questions tagged «q-learning»

1
什么是“体验重播”及其好处?
我一直在阅读Google的DeepMind Atari 论文,并且试图理解“体验重播”的概念。许多其他强化学习论文(尤其是AlphaGo论文)中都有经验重播,所以我想了解它的工作原理。以下是一些摘录。 首先,我们使用一种称为经验重播的生物学启发机制来对数据进行随机化,从而消除观察序列中的相关性并平滑数据分布的变化。 然后,本文阐述如下: 虽然存在其他用于在强化学习环境中训练神经网络的稳定方法(例如,神经拟合Q迭代),但这些方法涉及从头进行数百次迭代的网络重复训练。因此,与我们的算法不同,这些方法效率低下,无法在大型神经网络中成功使用。我们使用图1所示的深度卷积神经网络对近似值函数进行参数化,其中是迭代 Q网络的参数(即权重)。为了执行体验重播,我们在每个时间步长存储座席的体验。Q (s ,a ; θ一世)问(s,一种;θ一世)Q(s, a; \theta_i)θ一世θ一世\theta_i一世一世iËŤ=(秒Ť,一Ť,[RŤ,秒t + 1)ËŤ=(sŤ,一种Ť,[RŤ,sŤ+1个)e_t = (s_t, a_t, r_t, s_{t+1})ŤŤt在数据集中。在学习期间,我们对经验样本(或小批)应用Q学习更新,这些样本是从存储的样本池中随机抽取的。迭代处的Q学习更新使用以下损失函数:dŤ= { e1个,… ,eŤ}dŤ={Ë1个,…,ËŤ}D_t = \{e_1, \dots, e_t \}(s ,a ,r ,s′)〜ü(D )(s,一种,[R,s′)〜ü(d)(s, a, r, s') \sim U(D)一世一世i 大号一世(θ一世)= E(s ,a ,r ,s′)〜ü(D )[ ( r + γ最高一种′Q (小号′,一′; θ-一世)- Q …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.