SARSA和Q Learning都是强化学习算法,它们以相似的方式工作。最显着的差异是SARSA处于策略状态,而Q Learning处于策略状态。更新规则如下:
Q学习:
SARSA:
其中和是状态,在时间步处的动作和奖励,而是折扣因子。
它们的外观基本相同,只是在SARSA中我们采取实际行动,在Q Learning中我们采取最高奖励的行动。
在任何理论或实践环境中,一个都应该偏爱另一个吗?我可以看到,在Q Learning中获得最大收益可能会非常昂贵,甚至在连续的动作空间中甚至更多。但是还有别的吗?