问题1:一般而言,强化学习中是否有处理非固定环境的通用或公认方法?
α
但是,这可以解决长期的不稳定问题,例如情节之间或更长的时间范围内发生变化的问题。您的描述看起来更像是您希望在短时间内根据代理采取的行动更改奖励结构。更好地将对动作的动态响应框架化为另一个更复杂的MDP,而不是更简单的MDP中的“非平稳性”。
代理无法了解尚未采样的环境变化,因此更改奖励结构不会阻止该代理返回先前访问的状态。除非您在座席中使用RNN之类的东西,否则座席将不会有情节之前发生的事情的“记忆”,除了当前状态表示的内容(可以说,使用RNN会使RNN的隐藏层成为一部分)状态)。在多个情节中,如果您使用表格Q学习代理,则该代理将仅了解某些状态的价值较低,因此将无法得知对该状态的第二次或第三次访问会导致这种影响,因为它没有表示知识的方式。它将无法足够快地适应变化,以在线学习和中期学习。
Q2:在我的网格世界中,当访问状态时,奖励功能会发生变化。我希望我的代理学习的唯一内容是“除非真正需要,否则请不要回去”,但这会使环境不稳定。
如果您只需要代理商学习,那么适当的奖励结构可能会鼓励您。在您可以执行此操作之前,您需要了解自己“真正需要”暗示的内容以及在逻辑上必须做到的严格程度。您可能会好起来的,尽管只是为访问座席已经或最近访问过的任何位置分配了一定的罚款。
可以/应该将此非常简单的规则合并到MDP模型中吗?
是的,您应该将有关访问位置的信息添加到状态中。这将立即使您的状态模型比简单的网格世界更加复杂,从而增加问题的范围,但这是不可避免的。大多数现实世界中的问题很快就超出了提供教学RL概念的玩具示例。
一种替代方案是将问题构造为部分可观察的马尔可夫决策过程(POMDP)。在那种情况下,“真实”状态仍将包括所有必要的历史记录以便计算奖励(由于这是计算机上的玩具问题,您仍然必须以某种方式表示它),但是代理可以尝试从受限状态中学习关于状态的知识,无论您让它观察到什么。通常,这比扩展状态表示要困难得多,我在这里不建议这样做。但是,如果您发现这个想法很有趣,则可以使用问题来探索POMDP。这是一篇最近的论文(来自Google的Deep Mind团队,2015年),研究了两种RL算法与 RNN 结合来解决POMDP。
Q3:我一直在研究具有经验重播的Q学习,作为应对非固定环境的解决方案,因为它可以消除连续更新的相关性。这是该方法的正确使用,还是更多地用于提高学习效率的方法?
体验重播对非平稳环境无济于事。实际上,这可能会使它们的性能变差。但是,正如已经说明的那样,您的问题不是真正的非平稳环境,而是有关处理更复杂的状态动态的问题。
648 × 8264
使用功能估计器,体验重播非常有用,因为没有它,学习过程可能会变得不稳定。因此,最近用于玩Atari游戏的DQN方法使用体验重播。