程序设计 value-iteration

在强化学习中，策略迭代和价值迭代有什么区别？据我了解，在值迭代中，您使用Bellman方程来求解最优策略，而在策略迭代中，您随机选择一个策略π，并找到该策略的收益。我的疑问是，如果您在PI中选择随机策略π，那么即使我们选择多个随机策略，也如何保证它是最佳策略。

93 machine-learning reinforcement-learning markov-models value-iteration

Questions tagged «value-iteration»