为什么深度强化学习不稳定?


13

在DeepMind于2015年发表的有关深度强化学习的论文中指出,“由于不稳定的学习,将RL与神经网络结合的先前尝试在很大程度上失败了”。然后,论文根据观察结果之间的相关性列出了造成这种情况的一些原因。

请有人可以解释一下这是什么意思吗?这是一种过度拟合的形式吗,神经网络学习了训练中存在但测试中可能没有的某种结构?还是意味着其他?


可以找到该文件:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html

我想了解的部分是:

当使用非线性函数逼近器(例如神经网络)表示作用值(也称为Q)函数时,强化学习不稳定或发散。这种不稳定性有多种原因:观察序列中存在相关性,对Q的小更新可能会显着更改策略并因此更改数据分布的事实,以及作用值与目标值之间的相关性。

我们使用一种新颖的Q学习方法解决了这些不稳定性,该方法使用了两个关键思想。首先,我们使用一种称为经验重播的受生物学启发的机制来对数据进行随机化,从而消除观察序列中的相关性,并平滑数据分布中的变化。其次,我们使用了迭代更新,将操作值(Q)调整为仅定期更新的目标值,从而减少了与目标的相关性。


为了确保您正在对代理进行不相关数据的培训,您不应在每一步都更新代理内存,请修复存储步骤以对数据进行去相关。
narjes karmani

Answers:


11

与其他许多领域一样,主要问题是DNN可能难以训练。在这里,一个问题是输入数据的关联性:如果您考虑一个视频游戏(他们实际上是使用视频游戏来测试他们的算法),则可以想象一步一步拍摄的屏幕截图是高度相关的:游戏“不断发展”。对于NN来说,这可能是个问题:对相似且相关的输入进行多次梯度下降迭代可能会导致它们过度拟合和/或陷入局部最小值。这就是他们使用体验重播的原因:他们存储了游戏的一系列“快照”,然后对其进行洗牌,并在以后进行一些步骤选择来进行培训。这样,数据不再相关。然后,他们注意到训练期间的Q值(由NN预测)如何改变正在进行的策略,


所谓“混洗”数据,是指在小批量生产中抽样的随机,无序体验吗?它与“折现的未来奖励”如何对应,后者似乎暗示了在序列中的经历?
isobretatel
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.