统计和大数据 deep-rl

为什么Q-Learning在测试过程中使用epsilon-greedy？

在DeepMind关于Atari视频游戏的Deep Q-Learning的论文（此处）中，他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时，它要么被选为q值最高的动作，要么是随机动作。两者之间的选择是随机的，并且基于epsilon的值，并且在训练过程中对epsilon进行退火，这样一开始，会采取许多随机动作（探索），但是随着训练的进行，会采取许多具有最大q值的动作（开发）。然后，在测试过程中，他们也使用这种epsilon-greedy方法，但是epsilon的值非常低，因此对开发的偏向是对勘探的偏向，倾向于选择q值最高的行为而不是随机行为。但是，有时仍会选择随机动作（5％的时间）。我的问题是：鉴于已经进行了培训，为什么在这一点上根本不需要进行任何探索？如果系统已经学会了最佳策略，那么为什么不总是将行动选择为q值最高的行动呢？难道不应该只在培训中进行探索，然后一旦学会了最佳策略，代理就可以反复选择最佳行动？谢谢！

18 machine-learning reinforcement-learning q-learning deep-rl

Questions tagged «deep-rl»