Questions tagged «policy-gradients»

1
Q学习和策略梯度方法之间有什么关系?
据我了解,Q学习和策略梯度(PG)是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报,而政策梯度则直接预测了行动本身。 但是,这两种方法对我来说似乎都是相同的,即,预测一个动作的最大回报(Q学习)等同于预测直接采取该动作的概率(PG)。损失向后传播的方式是否有所不同?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.