4 价值迭代和策略迭代有什么区别? 在强化学习中,策略迭代和价值迭代有什么区别? 据我了解,在值迭代中,您使用Bellman方程来求解最优策略,而在策略迭代中,您随机选择一个策略π,并找到该策略的收益。 我的疑问是,如果您在PI中选择随机策略π,那么即使我们选择多个随机策略,也如何保证它是最佳策略。 93 machine-learning reinforcement-learning markov-models value-iteration