在机器人技术中,强化学习技术用于查找机器人的控制模式。不幸的是,大多数策略梯度方法在统计上都是有偏见的,这可能会使机器人处于不安全状况,请参阅Jan Peters和Stefan Schaal的第2页:通过策略梯度加强学习运动技能,2008年
通过运动原始学习,可以克服该问题,因为策略梯度参数优化将学习步骤引导到目标中。
quote:“如果梯度估计是无偏的,并且学习率满足sum(a)= 0,则保证学习过程至少收敛到局部最小值。因此,我们仅需要根据生成的数据来估计策略梯度在执行任务期间。”(同一论文的第4页)
在Berkeley RL类问题1 的作业中,它要求您显示,如果减去的基线是时间步长t的状态的函数,则策略梯度仍然没有偏见。
我正在努力进行这种证明的第一步。有人可以指出我正确的方向吗?我最初的想法是以某种方式使用总期望定律使b(st)的期望以T为条件,但我不确定。提前致谢 :)