4
为什么Q-Learning在测试过程中使用epsilon-greedy?
在DeepMind关于Atari视频游戏的Deep Q-Learning的论文(此处)中,他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时,它要么被选为q值最高的动作,要么是随机动作。两者之间的选择是随机的,并且基于epsilon的值,并且在训练过程中对epsilon进行退火,这样一开始,会采取许多随机动作(探索),但是随着训练的进行,会采取许多具有最大q值的动作(开发)。 然后,在测试过程中,他们也使用这种epsilon-greedy方法,但是epsilon的值非常低,因此对开发的偏向是对勘探的偏向,倾向于选择q值最高的行为而不是随机行为。但是,有时仍会选择随机动作(5%的时间)。 我的问题是:鉴于已经进行了培训,为什么在这一点上根本不需要进行任何探索?如果系统已经学会了最佳策略,那么为什么不总是将行动选择为q值最高的行动呢?难道不应该只在培训中进行探索,然后一旦学会了最佳策略,代理就可以反复选择最佳行动? 谢谢!