设置
我们正在考虑以下设置:
- 离散动作
- 离散状态
- 无限奖励
- 固定政策
- 无限的视野
V * = 最大π V π(小号),∀ 小号∈ 小号V * = V π *
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
问题
如何证明至少存在一个,它同时满足所有(1)?小号∈ 小号π∗s∈S
证明大纲
构造最优方程以用作最优值函数的临时替代定义,我们将在步骤2中证明它等同于等式(2)。
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
通过等式(4)和等式(2)推导定义最优值函数的等价性。
(注意实际上,我们只需要证明中的必要性方向,因为自从等式(2)构造等式(4)以来,明显性就足够了。)
证明对方程(4)有一个独特的解决方案。
在步骤2中,我们知道在步骤3中获得的解也是方程(2)的解,因此它是最优值函数。
通过最优值函数,我们可以通过在等式(4)中为每个状态选择最大化器动作来恢复最优策略。
详细步骤
1个
由于,所以我们有。并且如果有使得,我们可以通过最大化选择一个更好的政策超过。V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
跟随步骤1。
(<=)
即如果满足,则。V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
将最佳Bellman运算符定义为
因此,我们的目标是证明如果,则。我们通过结合Puterman [1]的两个结果来证明这一点:
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
a)如果,则。V~≥TV~V~≥V∗
b)如果,则。V~≤TV~V~≤V∗
证明:
一种)
对于任何,
这里是决策规则(在特定时间的动作轮廓),是立即奖励的向量表示从诱导的和是从诱导的转移矩阵。π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
通过归纳,对于任何,
其中表示下的步跃迁矩阵。n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
由于
我们有了
因此我们有了。并且由于这适用于任何,因此得出结论
b)
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
从步骤1开始。
3
最佳的Bellman算子是范数的一个收缩,请参见。[2]。L∞
证明:对于任何,
,其中(*)中使用
s最大一个˚F(一)-最大一个'克(一')≤最大一个[˚F(一)-克(一)]
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
因此,根据Banach不动点定理,具有唯一的不动点。T
参考文献
[1] Puterman,Martin L.。“马尔可夫决策过程:离散随机动态规划。” (2016)。
[2] A. Lazaric。http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf