程序设计 sarsa

Q学习和SARSA有什么区别？

尽管我知道SARSA是策略性的，而Q学习是策略性的，但当查看它们的公式时，（对我而言）很难看出这两种算法之间的区别。根据《强化学习：入门》一书（萨顿和巴托撰写）。在SARSA算法中，在给定策略的情况下，可以按以下方式更新对应的动作值函数Q（在时间步t处于状态s和动作a），即Q（s t，a t）。 Q（s t，a t）= Q（s t，a t）+α*（r t +γ* Q（s t + 1，a t + 1）-Q（s t，a t））另一方面，Q学习算法的更新步骤如下 Q（s t，a t）= Q（s t，a t）+α*（r t +γ* max a Q（s t + 1，a）-Q（s t，a t））也可以写成 Q（s t，a t）=（1-α）* Q（s t，a t）+α*（r t +γ* max a Q（s …

80 artificial-intelligence reinforcement-learning q-learning sarsa

Questions tagged «sarsa»