Questions tagged «value-iteration»

4
价值迭代和策略迭代有什么区别?
在强化学习中,策略迭代和价值迭代有什么区别? 据我了解,在值迭代中,您使用Bellman方程来求解最优策略,而在策略迭代中,您随机选择一个策略π,并找到该策略的收益。 我的疑问是,如果您在PI中选择随机策略π,那么即使我们选择多个随机策略,也如何保证它是最佳策略。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.