6
Q学习和SARSA有什么区别?
尽管我知道SARSA是策略性的,而Q学习是策略性的,但当查看它们的公式时,(对我而言)很难看出这两种算法之间的区别。 根据《强化学习:入门》一书(萨顿和巴托撰写)。在SARSA算法中,在给定策略的情况下,可以按以下方式更新对应的动作值函数Q(在时间步t处于状态s和动作a),即Q(s t,a t)。 Q(s t,a t)= Q(s t,a t)+α*(r t +γ* Q(s t + 1,a t + 1)-Q(s t,a t)) 另一方面,Q学习算法的更新步骤如下 Q(s t,a t)= Q(s t,a t)+α*(r t +γ* max a Q(s t + 1,a)-Q(s t,a t)) 也可以写成 Q(s t,a t)=(1-α)* Q(s t,a t)+α*(r t +γ* max a Q(s …