Questions tagged «deterministic-policy»

3
如果环境也是随机的,最优策略是否总是随机的?
如果环境也是随机的,最优策略是否总是随机的(即,从状态到动作的概率分布的映射)? 直观地,如果环境是确定性的(即,如果代理处于状态sss并采取操作,则下一个状态始终相同,无论在哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是状态到动作的映射,而不是动作的概率分布)。a一个as′s′s'
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.