2
为什么基线在某些时间步上取决于状态?
在机器人技术中,强化学习技术用于查找机器人的控制模式。不幸的是,大多数策略梯度方法在统计上都是有偏见的,这可能会使机器人处于不安全状况,请参阅Jan Peters和Stefan Schaal的第2页:通过策略梯度加强学习运动技能,2008年 通过运动原始学习,可以克服该问题,因为策略梯度参数优化将学习步骤引导到目标中。 quote:“如果梯度估计是无偏的,并且学习率满足sum(a)= 0,则保证学习过程至少收敛到局部最小值。因此,我们仅需要根据生成的数据来估计策略梯度在执行任务期间。”(同一论文的第4页) 在Berkeley RL类问题1 的作业中,它要求您显示,如果减去的基线是时间步长t的状态的函数,则策略梯度仍然没有偏见。 ▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0▽θ∑t=1TE(st,at)∼p(st,at)[b(st)]=0 \triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0 我正在努力进行这种证明的第一步。有人可以指出我正确的方向吗?我最初的想法是以某种方式使用总期望定律使b(st)的期望以T为条件,但我不确定。提前致谢 :) 链接到方程的原始png