统计和大数据 temporal-difference

何时使用蒙特卡洛方法优于时差方法？

最近，我一直在进行大量有关强化学习的研究。我遵循了Sutton＆Barto的《强化学习：简介》。我知道什么是马尔可夫决策过程，以及如何使用动态规划（DP），蒙特卡洛和时间差（DP）学习来解决它们。我遇到的问题是，我不知道蒙特卡洛何时会比TD学习更好的选择。它们之间的主要区别是TD学习使用自举法来近似动作值函数，而Monte Carlo使用平均值来实现这一点。当这是更好的方法时，我只是真的无法想到一个方案。我的猜测是，它可能与性能有关，但我找不到任何可以证明这一点的资料。我是否缺少某些东西？或者一般来说，TD学习是更好的选择吗？

12 monte-carlo reinforcement-learning temporal-difference

Questions tagged «temporal-difference»