我在“ 强化学习中的简介 ”中看到了以下等式,但并没有完全遵循下面以蓝色突出显示的步骤。此步骤如何精确得出?
我在“ 强化学习中的简介 ”中看到了以下等式,但并没有完全遵循下面以蓝色突出显示的步骤。此步骤如何精确得出?
Answers:
这是每个想知道其背后整洁,结构化数学的人的答案(即,如果您属于知道随机变量是什么的一群人,并且您必须显示或假设随机变量具有密度,那么这就是您的答案;-)):
首先,我们需要使马尔可夫决策过程仅具有有限数量的奖励,即我们需要存在一个有限的密度集,每个密度都属于变量,即所有和地图,使得
(即,在MDP后面的自动机中,可能有无限多个状态,但是只有有限多个奖励分布附加到状态之间可能无限的过渡上)大号1个
定理1:令(即可积实数随机变量),令为另一个随机变量,使得具有相同的密度,则
X ∈ 大号1(Ω )
证明:Stefan Hansen 在这里进行了证明。
定理2:令,令为进一步的随机变量,使得具有共同的密度,则
其中是范围。X ∈ 大号1(Ω )
证明:
E [ X | Y = y ]= ∫ [R X p (X | Ý )d X (1分)= ∫ [R X p (X ,ÿ )p (y ) dx= ∫ [R X ∫ ž p (X ,ÿ ,Ž )d Žp (y ) dx= ∫ ž ∫ [R X p (X ,ÿ ,Ž )p (y ) dxdz= ∫ ž ∫ [R X p (X | Ý ,Ž )p (Ž | Ý )d X d ž= ∫ ž p (Ž | Ý )∫ [R X p (X | Ý ,Ž )d X d ž= ∫ ž p (Ž | Ý )ë [ X | Y = y ,Z = z ] d z (1分)
放并放然后可以证明(使用MDP仅具有有限的奖励的事实),收敛,并且由于函数仍然处于(即积)一个也可以显示(通过使用单调收敛的定理的上为条件期望[的因式分解]所述定义方程通常的组合,然后控制收敛),该
现在显示
ģ 吨 = Σ ∞ ķ = 0 γ ķ ř 吨+ ķ
状态空间是有限的(然后并且总和是有限的),或者所有的奖励都是正的(然后我们使用单调收敛),或者所有的奖励都是负的(然后我们在减号前面放一个减号)等式并再次使用单调收敛)或所有奖励都是有界的(然后我们使用主导收敛)。然后(通过将应用于上述偏/有限Bellman方程的两边),我们得到∫ 小号 = Σ 小号
E [ G t | 小号吨 = 小号 t ] = E [ G (K ) t | S t = s t ] = E [ R t | 小号吨 = 小号吨 ] + γ ∫小号 p (小号吨+ 1 | 小号吨)ë [ ģ 吨+ 1 | 小号Ť+ 1 = s t + 1 ]d s t + 1
然后剩下的就是通常的密度控制。
备注:即使在非常简单的任务中,状态空间也可以是无限的!一个例子就是“平衡极点”任务。状态本质上是极角(的值,无穷无穷!)![ 0 ,2 π )
备注:人们可能会评论“面团,如果您直接使用的密度并显示 '...但是...我的问题是:ģ 吨
让时间之后的折价奖励总和为:
吨ģ 吨 = - [R 吨+ 1 + γ - [R 吨+ 2 + γ 2 - [R 吨+ 3 + 。。。
从状态开始的效用值在时间等于从状态开始执行策略的
折价奖励的期望总和
。
根据根据线性定律
通过的法小号吨- [R π 小号ù π(小号吨 = 小号)= È π [ ģ 吨| S t = s ]
= È π [ ([R 吨+ 1 + γ - [R 吨+ 2 + γ 2 - [R 吨+ 3 + 。。。)| 小号吨 = 小号] ģ 吨 = È π [ ([R 吨+ 1 + γ (ř 吨+ 2 + γ - [R 吨+ 3 + 。。。))| 小号吨 = 小号] = È π [ ([R = Ë π [ ř 吨+ 1 | 小号吨 = 小号] + π(小号
吨+ 1 +γ( G ^ 吨+ 1)) | 小号吨 =小号]= È π [ ř 吨+ 1 | 小号吨 =小号]+γ È π [ ģ 吨+ 1 | S t =s]
γ È π [ ë π(ģ 吨+ 1 | 小号吨+ 1 = 小号')| 小号吨 = 小号] = È π [ ř 吨+ 1 | 小号吨 = 小号] + γ È π [ Ù
t + 1 = s ') | 小号吨 =小号] Ù π = È π [ ř 吨+ 1 +γ Ü π(小号吨+ 1 =小号') | S t =s]
假定该过程满足马尔可夫性质:
从状态开始并采取了动作,最终状态结束的
概率,
并
从状态开始采取行动,最终以状态结束的
奖励,
P - [R 小号' š 一个P - [R (小号' | š ,一)= P [R (小号吨+ 1 = 小号',小号吨 = 小号,甲吨 = 一)- [R 小号' š 一个[R (小号,一个,小号′)= [ R t + 1 | 小号Ť
= s ,A t = a ,S t + 1 = s ' ]
因此,我们可以将上面的效用方程为
= Σ 一个 π (一| š )Σ 小号' P [R (小号' | s ^ ,一)[ - [R (小号,一个,š ')+ γ Ü π(小号吨+ 1 = 小号')]
哪里;
:在处于状态随机策略时采取操作可能性。对于确定性策略,π (一个|小号)一个小号Σ 一个 π (一| š )= 1
这是我的证明。它基于对条件分布的操纵,因此更易于遵循。希望这对您有所帮助。
v π(小号)= E [ G t | S t = s ]= ë [ ř 吨+ 1 + γ ģ 吨+ 1 | S t = s ]= Σ 小号' Σ ř Σ 克吨+ 1 Σ 一个 p (小号',- [R ,克吨+ 1,一个| š )(- [R + γ 克吨+ 1)= Σ 一 p (一| š )Σ 小号' Σ ř Σ 克吨+ 1 p (小号',- [R ,克吨+ 1 |一个,š )(- [R + γ 克吨+ 1)= Σ 一 p (一| š )Σ 小号' Σ ř Σ 克吨+ 1 p (小号',- [R |一个,š )p (克吨+ 1 | s ^ ',- [R ,一,š )(- [R + γ g t + 1)注意, 通过假设MDP , p (g t + 1 | s ',r ,a ,s )= p (g t + 1 | s ')= Σ 一 p (一| š )Σ 小号' Σ [R p (小号',- [R |一个,š )Σ 克吨+ 1个 p (克吨+ 1 | s ^ ')(- [R + γ 克吨+ 1)= Σ 一 p (一| š )Σ 小号' Σ [R p (小号',- [R |一个,š )(- [R + γ Σ 克吨+ 1 p (克吨+ 1 | s ^ ')克吨+ 1)=∑ap(a|s)∑s′∑rp(s′,r|a,s)(r+γvπ(s′))
以下方法是什么?
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=∑aπ(a∣s)∑s′∑rp(s′,r∣s,a)⋅Eπ[Rt+1+γGt+1∣St=s,At+1=a,St+1=s′,Rt+1=r]=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvπ(s′)].
引入和是为了从检索,和。毕竟,可能的动作和可能的下一个状态可以是。在这些额外条件下,期望的线性几乎直接导致结果。a
不过,我不确定我的论点在数学上有多严格。我愿意改进。
这只是对已接受答案的评论/补充。
我对适用总期望定律的说法感到困惑。我认为总期望法则的主要形式在这里没有帮助。实际上,这里需要它的变体。
如果是随机变量,并假设存在所有期望,则以下标识成立:X,Y,Z
E[X|Y]=E[E[X|Y,Z]|Y]
在这种情况下,,和。然后X=Gt+1
E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s′|St=s]
从那里,人们可以从答案中得到其余的证明。
Eπ(⋅)
小写字母似乎正在替换随机变量。第二个期望值代替了无穷大的总和,以反映我们对所有未来继续遵循的假设。是下一个时间步的预期立即奖励;第二个期望-变为是下一个状态的期望值,该权重由状态从中获得时的概率加权。r
因此,期望考虑了政策概率以及过渡和奖励函数,在此一起表示为。p(s′,r|s,a)
即使已经给出了正确的答案并且已经过去了一段时间,但我认为以下逐步指南可能会有用:
通过期望值的线性,我们可以拆分
分为 和。
我将仅在第一部分中概述步骤,因为第二部分之后是与总期望法则结合的相同步骤。E[Rt+1+γE[Gt+1|St=s]]
E[Rt+1|St=s]=∑rrP[Rt+1=r|St=s]=∑a∑rrP[Rt+1=r,At=a|St=s](III)=∑a∑rrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=∑s′∑a∑rrP[St+1=s′,Rt+1=r|At=a,St=s]P[At=a|St=s]=∑aπ(a|s)∑s′,rp(s′,r|s,a)r
而(III)遵循以下形式:
P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]
我知道已经有一个可以接受的答案,但是我想提供一个可能更具体的推论。我还要提及的是,尽管@Jie Shi技巧在一定程度上是有道理的,但它使我感到非常不舒服:(。我们需要考虑时间维度以使这项工作有效。重要的是要注意,期望实际上是取整个无限的视野,而不是仅仅在和。让我们假设从开始(实际上,无论开始时间如何,推导都是相同的;我不想用另一个下标来污染方程式)
s
在这个阶段,我相信我们大多数人都应该已经牢记上面的内容如何导致最终表达方式-我们只需要地应用求和积规则() 。让我们将期望的线性定律应用于内的每个术语∑a∑b∑cabc≡∑aa∑bb∑cc
第1部分
∑a0π(a0|s0)∑a1,...aT∑s1,...sT∑r1,...rT(T−1∏t=0π(at+1|st+1)p(st+1,rt+1|st,at)×r1)
好吧,这是微不足道的,除了与相关的那些概率,所有概率都消失了(实际上总和为1)。因此,我们有
r1
第2部分
猜猜是什么,这部分更为琐碎-它仅涉及重新排列求和顺序。
∑a0π(a0|s0)∑a1,...aT∑s1,...sT∑r1,...rT(T−1∏t=0π(at+1|st+1)p(st+1,rt+1|st,at))=∑a0π(a0|s0)∑s1,r1p(s1,r1|s0,a0)(∑a1π(a1|s1)∑a2,...aT∑s2,...sT∑r2,...rT(T−2∏t=0π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))
还有尤里卡!我们在大括号旁边恢复了递归模式。让我们将其与,我们得到
,第2部分变为
γ∑T−2t=0γtrt+2
∑a0π(a0|s0)∑s1,r1p(s1,r1|s0,a0)×γvπ(s1)
第1部分+第2部分
vπ(s0)=∑a0π(a0|s0)∑s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))
现在,如果我们可以考虑时间维度并恢复通用的递归公式
vπ(s)=∑aπ(a|s)∑s′,rp(s′,r|s,a)×(r+γvπ(s′))
最后的表白,当我看到上面提到的人们对总期望法则的使用时,我笑了。所以我在这里
这个问题已经有很多答案,但是大多数都只包含很少的单词来描述操作中正在发生的事情。我想我将使用更多的单词来回答。开始,
Gt≐T∑k=t+1γk−t−1Rk
在萨顿(Sutton)和巴托(Barto)的方程式3.11中定义,具有恒定的折现因子,我们可以使或,但不能同时具有两者。由于奖励是随机变量,因此也是随机变量的线性组合,因此也是。0≤γ≤1
vπ(s)≐Eπ[Gt∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
最后一行来自期望值的线性。 是代理在时间步采取行动后获得的奖励。为简单起见,我假设它可以采用有限数量的值。 Rt+1
在第一学期工作。换句话说,假设我们知道当前状态为,我需要计算的期望值。公式是Rt+1
Eπ[Rt+1|St=s]=∑r∈Rrp(r|s).
换句话说,奖励出现的概率取决于状态 ; 不同的州可能有不同的奖励。此分布是分布的边际分布,该分布还分别包含变量和,在时间采取的行动以及在该行为之后的时间的状态:r
p(r|s)=∑s′∈S∑a∈Ap(s′,a,r|s)=∑s′∈S∑a∈Aπ(a|s)p(s′,r|a,s).
按照本书的约定,在我使用的地方。如果最后一个等式令人困惑,则忽略总和,抑制(该概率现在看起来像一个联合概率),使用乘法定律,最后以所有新术语重新引入的条件。现在可以很容易地看到第一个术语是π(a|s)≐p(a|s)
Eπ[Rt+1|St=s]=∑r∈R∑s′∈S∑a∈Arπ(a|s)p(s′,r|a,s),
按要求。关于第二项,我假设是一个随机变量,它具有有限数量的值。就像第一个词:Gt+1
Eπ[Gt+1|St=s]=∑g∈Γgp(g|s).(∗)
再次,我通过写“取消边缘化”概率分布(再次是乘法定律)
p(g|s)=∑r∈R∑s′∈S∑a∈Ap(s′,r,a,g|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′,r,a,s)p(s′,r,a|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′,r,a,s)p(s′,r|a,s)π(a|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′,r,a,s)p(s′,r|a,s)π(a|s)=∑r∈R∑s′∈S∑a∈Ap(g|s′)p(s′,r|a,s)π(a|s)(∗∗)
此处的最后一行来自Markovian属性。请记住,是代理商在状态之后获得的所有未来(折后)奖励的总和。马尔可夫特性是,该过程对于先前的状态,动作和奖励没有记忆。未来的行动(以及他们获得的报酬)仅取决于采取行动的状态,因此假设。好了,现在证明中的第二项Gt+1
γEπ[Gt+1|St=s]=γ∑g∈Γ∑r∈R∑s′∈S∑a∈Agp(g|s′)p(s′,r|a,s)π(a|s)=γ∑r∈R∑s′∈S∑a∈AEπ[Gt+1|St+1=s′]p(s′,r|a,s)π(a|s)=γ∑r∈R∑s′∈S∑a∈Avπ(s′)p(s′,r|a,s)π(a|s)
根据需要,再次。结合两个术语即可完成证明
vπ(s)≐Eπ[Gt∣St=s]=∑a∈Aπ(a|s)∑r∈R∑s′∈Sp(s′,r|a,s)[r+γvπ(s′)].
更新
我想谈一谈第二任期的推论。在以标记的方程式中,我使用项,然后在以标记的方程式中,我通过争辩马尔可夫性质来断言不依赖于。因此,您可能会说,如果是这种情况,则。但是这是错误的。我可以把因为该声明左侧的概率说,这是概率上调理,,和(∗)
如果该参数不能说服您,请尝试计算是什么:p(g)
p(g)=∑s′∈Sp(g,s′)=∑s′∈Sp(g|s′)p(s′)=∑s′∈Sp(g|s′)∑s,a,rp(s′,a,r,s)=∑s′∈Sp(g|s′)∑s,a,rp(s′,r|a,s)p(a,s)=∑s∈Sp(s)∑s′∈Sp(g|s′)∑a,rp(s′,r|a,s)π(a|s)≐∑s∈Sp(s)p(g|s)=∑s∈Sp(g,s)=p(g).
从最后一行可以看出,是不正确的。如果您不知道或假设状态,则的期望值取决于您从哪个状态开始(即的身份)。p(g|s)=p(g)gss′