在DeepMind于2015年发表的有关深度强化学习的论文中指出,“由于不稳定的学习,将RL与神经网络结合的先前尝试在很大程度上失败了”。然后,论文根据观察结果之间的相关性列出了造成这种情况的一些原因。
请有人可以解释一下这是什么意思吗?这是一种过度拟合的形式吗,神经网络学习了训练中存在但测试中可能没有的某种结构?还是意味着其他?
可以找到该文件:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html
我想了解的部分是:
当使用非线性函数逼近器(例如神经网络)表示作用值(也称为Q)函数时,强化学习不稳定或发散。这种不稳定性有多种原因:观察序列中存在相关性,对Q的小更新可能会显着更改策略并因此更改数据分布的事实,以及作用值与目标值之间的相关性。
我们使用一种新颖的Q学习方法解决了这些不稳定性,该方法使用了两个关键思想。首先,我们使用一种称为经验重播的受生物学启发的机制来对数据进行随机化,从而消除观察序列中的相关性,并平滑数据分布中的变化。其次,我们使用了迭代更新,将操作值(Q)调整为仅定期更新的目标值,从而减少了与目标的相关性。