0
Sannikov(2007)附录A中的证明
我对Sannikov(2007)附录A“ 连续时间内具有不完美可观察动作的游戏”中的证明有一些疑问。 在引理4中,当他在显示的Lipschitz连续性时,他导出了一个辅助函数,取其导数,并将该导数定界(第41页)。他如何获得约束?什么是?他如何约束涉及和的因子?Ha(w,θ)Ha(w,θ)H_a(w,\theta)θθ\thetaF(θ′)F(θ′)F(\theta^\prime)|V||V||\mathcal{V}|β1β1\beta^1β2β2\beta^2 在命题4中,为何目标的Lipschitz连续性保证了价值函数的连续性?这仅遵循最大定理吗?如果是这样,为什么我们需要Lipschitz连续性? 同样在命题4中:为什么初始曲率是正的保证它保持正? 幂等性如何保证?Qi(a)Qi(a)Q_i(a)Q¯≥1Q¯≥1\bar{Q} \geq 1