在未来和未知的未来数量进入最佳解决方案的那一刻,我们没有其他选择,只能在其位置插入一些估计。更广泛使用的这种估计(但不是唯一的)是条件期望。条件,除之外的所有内容都将被视为常量。由于我们不知道究竟是如何进入函数的,因此我们将抽象符号写为函数:s t + 1 s t + 1 ftst+1st+1f
E[f(αt,βt,st,h(st+1,...)∣t]=0⇒f(αt,βt,st,E[h(st+1,...)∣t])=0
还要记住,条件期望是一个函数,而不是一个常量(因为是无条件的期望值)。
由于这是一个解决方案,为了研究比较静态,必须使用隐函数定理,该定理表明,从解决方案开始,
dstdαt=−∂f(αt,βt,st,E[h(st+1,...)∣t])/∂αt∂f(αt,βt,st,E[h(st+1,...)∣t])/∂st
右侧的偏导数符号传达的信息是,在分子中,不能相对于,而在分母中,不能相对于进行(并且相同)持有)。
但是在两种情况下都是公平的。什么将操作和 yield,当然取决于条件期望的实际表达式。stαtαtstβt
E[h(st+1,...)∣t]∂E[h(st+1,...)∣t]/∂αt∂E[h(st+1,...)∣t]/∂st