2
何时使用蒙特卡洛方法优于时差方法?
最近,我一直在进行大量有关强化学习的研究。我遵循了Sutton&Barto的《强化学习:简介》。 我知道什么是马尔可夫决策过程,以及如何使用动态规划(DP),蒙特卡洛和时间差(DP)学习来解决它们。我遇到的问题是,我不知道蒙特卡洛何时会比TD学习更好的选择。 它们之间的主要区别是TD学习使用自举法来近似动作值函数,而Monte Carlo使用平均值来实现这一点。当这是更好的方法时,我只是真的无法想到一个方案。 我的猜测是,它可能与性能有关,但我找不到任何可以证明这一点的资料。 我是否缺少某些东西?或者一般来说,TD学习是更好的选择吗?