可信区域策略优化(TRPO)和近端策略优化(PPO)是两种最先进的策略梯度算法。
通常,当使用单个连续动作时,将对损失函数使用一些概率分布(例如,高斯分布)。粗略的版本是:
其中是奖励的优点,的特征在于,和附带像钟摆环境神经网络在这里:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。
问题是我无法使用策略梯度找到有关2种以上连续动作的任何论文(不是通过从Q函数转移梯度而使用不同方法的参与者批评方法)。
您知道如何使用TRPO在LunarLander环境中进行2次连续动作吗?
以下方法对策略梯度损失函数是否正确?