Questions tagged «trpo»

1
在多个连续动作的情况下,如何应用策略梯度?
可信区域策略优化(TRPO)和近端策略优化(PPO)是两种最先进的策略梯度算法。 通常,当使用单个连续动作时,将对损失函数使用一些概率分布(例如,高斯分布)。粗略的版本是: L (θ )= 对数(P(一个1个))A ,大号(θ)=日志⁡(P(一个1个))一个,L(\theta) = \log(P(a_1)) A, 其中一个一个A是奖励的优点,P(一个1个)P(一个1个)P(a_1)的特征在于,μμ\mu和σ2σ2\sigma^2附带像钟摆环境神经网络在这里:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。 问题是我无法使用策略梯度找到有关2种以上连续动作的任何论文(不是通过从Q函数转移梯度而使用不同方法的参与者批评方法)。 您知道如何使用TRPO在LunarLander环境中进行2次连续动作吗? 以下方法对策略梯度损失函数是否正确? L (θ )= (对数P(一个)+ 日志P(一个2))* A大号(θ)=(日志⁡P(a)+log⁡P(a2))∗AL(\theta) = (\log P(a_) + \log P(a_2) )*A
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.