非平稳环境中的强化学习


9

问题1:一般而言,强化学习中是否有处理非固定环境的通用或公认方法?

Q2:在我的网格世界中,当访问状态时,奖励功能会发生变化。每集奖励都会重置为初始状态。我希望我的代理学习的唯一内容是“除非真正需要,否则请不要回去”,但这会使环境不稳定。可以/应该将此非常简单的规则合并到MDP模型中吗?Q学习是解决此问题的最佳解决方案吗?有什么建议或可用的例子吗?

Q3:我一直在研究具有经验重播的Q学习,作为应对非固定环境的解决方案,因为它可以消除连续更新的相关性。这是该方法的正确使用,还是更多地用于提高学习效率的方法?而且我只看到它与值近似一起使用。我不确定将其用于简单的离散状态空间(例如gridworld)是否过大,或者有其他原因。

即使您无法解决所有问题,也请随时回答或发表评论。

Answers:


10

问题1:一般而言,强化学习中是否有处理非固定环境的通用或公认方法?

α

但是,这可以解决长期的不稳定问题,例如情节之间或更长的时间范围内发生变化的问题。您的描述看起来更像是您希望在短时间内根据代理采取的行动更改奖励结构。更好地将对动作的动态响应框架化为另一个更复杂的MDP,而不是更简单的MDP中的“非平稳性”。

代理无法了解尚未采样的环境变化,因此更改奖励结构不会阻止该代理返回先前访问的状态。除非您在座席中使用RNN之类的东西,否则座席将不会有情节之前发生的事情的“记忆”,除了当前状态表示的内容(可以说,使用RNN会使RNN的隐藏层成为一部分)状态)。在多个情节中,如果您使用表格Q学习代理,则该代理将仅了解某些状态的价值较低,因此将无法得知对该状态的第二次或第三次访问会导致这种影响,因为它没有表示知识的方式。它将无法足够快地适应变化,以在线学习和中期学习。

Q2:在我的网格世界中,当访问状态时,奖励功能会发生变化。我希望我的代理学习的唯一内容是“除非真正需要,否则请不要回去”,但这会使环境不稳定。

如果您只需要代理商学习,那么适当的奖励结构可能会鼓励您。在您可以执行此操作之前,您需要了解自己“真正需要”暗示的内容以及在逻辑上必须做到的严格程度。您可能会好起来的,尽管只是为访问座席已经或最近访问过的任何位置分配了一定的罚款。

可以/应该将此非常简单的规则合并到MDP模型中吗?

是的,您应该将有关访问位置的信息添加到状态中。这将立即使您的状态模型比简单的网格世界更加复杂,从而增加问题的范围,但这是不可避免的。大多数现实世界中的问题很快就超出了提供教学RL概念的玩具示例。

一种替代方案是将问题构造为部分可观察的马尔可夫决策过程(POMDP)。在那种情况下,“真实”状态仍将包括所有必要的历史记录以便计算奖励(由于这是计算机上的玩具问题,您仍然必须以某种方式表示它),但是代理可以尝试从受限状态中学习关于状态的知识,无论您让它观察到什么。通常,这比扩展状态表示要困难得多,我在这里不建议这样做。但是,如果您发现这个想法很有趣,则可以使用问题来探索POMDP。这是一篇最近的论文(来自Google的Deep Mind团队,2015年),研究了两种RL算法与 RNN 结合来解决POMDP。

Q3:我一直在研究具有经验重播的Q学习,作为应对非固定环境的解决方案,因为它可以消除连续更新的相关性。这是该方法的正确使用,还是更多地用于提高学习效率的方法?

体验重播对非平稳环境无济于事。实际上,这可能会使它们的性能变差。但是,正如已经说明的那样,您的问题不是真正的非平稳环境,而是有关处理更复杂的状态动态的问题。

648×8264

使用功能估计器,体验重播非常有用,因为没有它,学习过程可能会变得不稳定。因此,最近用于玩Atari游戏的DQN方法使用体验重播。


如果环境是不稳定的,那么您如何处理在网格世界示例中处于时间t = 1的状态与处于时间t = 2的状态不同的事实?如果将它们视为独立的状态,那么状态空间的维数肯定会爆炸吗?
trytolearn

@tryingtolearn:马尔可夫状态的全部要点是,它捕获了有关MDP从该点开始进展的所有重要细节。就预期的未来奖励和状态转换而言,通常在t = 1时处于状态与在t = 2时处于相同状态没有什么不同。如果最终使用基于t值的规则,则将t置于状态。如果您可以在任何时间步长获得奖励,则可能会发生这种情况,但是时间步长的数量是有限的-例如,情节总是以t = 10结尾。在那种情况下,知道您的剩余时间可能很重要
Neil Slater

@NeilSlater您可以在答案中扩展POMDP和RNN的想法吗?他们听起来很有趣。并且,如果可能的话,请提供相关的资源,因为有时很难浏览文献。我真的不喜欢保持访问状态顺序的想法,尽管到目前为止,这也是我唯一能想到的,所以我正在寻找其他选择。鉴于我需要引入一个非常简单的规则,因此该模型变得过于复杂。我不确定是否遗漏了非常明显的东西,或者只是没有使用正确的模型和公式。
Voltronika

@NeilSlater不能通过使用诸如策略梯度方法之类的方法来帮忙吗?在实践中,您是否偶然知道解决此类问题的标准是什么?
trytolearn

1
@Voltronika我扩展了答案,并添加了有关POMDP的段落。请注意,将问题归结为POMDP使得处理和解决问题要比扩展状态以包括访问位置的适当内存要困难得多。因此,我建议您仅研究以POMDP为目标。
尼尔·斯莱特

0

Q1:Q学习是一种在线强化学习算法,可在固定环境下很好地工作。它也可以与非平稳模型一起使用,条件是模型(奖励函数和转移概率)不会快速变化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.