为什么基线在某些时间步上取决于状态?


9

在机器人技术中,强化学习技术用于查找机器人的控制模式。不幸的是,大多数策略梯度方法在统计上都是有偏见的,这可能会使机器人处于不安全状况,请参阅Jan Peters和Stefan Schaal的第2页:通过策略梯度加强学习运动技能,2008年

通过运动原始学习,可以克服该问题,因为策略梯度参数优化将学习步骤引导到目标中。

quote:“如果梯度估计是无偏的,并且学习率满足sum(a)= 0,则保证学习过程至少收敛到局部最小值。因此,我们仅需要根据生成的数据来估计策略梯度在执行任务期间。”(同一论文的第4页)

Berkeley RL类问题1 的作业中,它要求您显示,如果减去的基线是时间步长t的状态的函数,则策略梯度仍然没有偏见。

θt=1TE(st,at)p(st,at)[b(st)]=0

我正在努力进行这种证明的第一步。有人可以指出我正确的方向吗?我最初的想法是以某种方式使用总期望定律使b(st)的期望以T为条件,但我不确定。提前致谢 :)

链接到方程的原始png


欢迎来到SE:AI! (我自由地将等式转换为MathJax。原始.png链接在底部。)
DukeZhou

2
确实没有太多时间写下确切的方程式并使用LaTeX对其进行格式设置(也许稍后再回答),但这是一个提示。您希望总和不取决于策略,因此导数将为0。因此,您以某种方式尝试使用策略p(s,a)表示事物。答案btw也可以在Sutton的RL Intro书中的“策略梯度”一章中找到。
阮海

1
非常感谢你!我将使用该提示开始操作,并感谢您告诉我有关它在Sutton RL中的信息。我正在读那本书,非常好!
劳拉C

@LauraC如果您在其他任何人之前找到答案,请一定要回来并作为正式答案发布在这里(人们肯定喜欢这个问题:)
DukeZhou

我已为该问题添加了上下文信息。
曼努埃尔·罗德里格斯

Answers:


7

使用反复期望定律,人们可以:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

用积分书写并在内部移动梯度(线性),您将获得

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

您现在可以将(由于线性)和(不取决于)从内部积分移到外部积分:θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st)是一个(条件的)概率密度函数,因此对于给定的固定状态,所有的等于:atst1

=t=1Tstp(st)b(st)θ1dst=

现在,证明成立。θ1=0


1

看来,作业本答案的写作,是由于前两天,但在情况下,它仍然以某种方式相关,相关的课堂笔记(如果与功课沿问题提供这将是有益的)在这里

对学生的期望的第一个实例是,“请通过使用迭代期望定律显示等式12,通过使状态动作去耦来打破在其余的轨道边缘。” 等式12是这个。Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

类注释将标识为状态动作边际。这不是寻求证明,而是一系列代数步骤以执行去耦并显示可以实现状态作用边际独立性的程度。πθ(at|st)

该练习是为下一步作业做准备,并且仅借鉴对伯克利机器学习入门课程CS189的评论,该课程的课程提纲或课堂笔记中未包含“总期望法则”。

所有相关信息均在上述课堂笔记链接中,仅需中间代数。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.