2
为什么在使用函数逼近时Q学习无法收敛?
只要满足以下条件(关于学习率的条件)(罗宾斯-蒙罗条件),表格式Q学习算法就可以确保找到最佳Q问Q函数Q∗问∗Q^* ∑tαt(s,a)=∞∑ŤαŤ(s,一个)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑ŤαŤ2(s,一个)<∞\sum_{t} \alpha_t^2(s, a) < \infty 其中αt(s,a)αŤ(s,一个)\alpha_t(s, a)意味着更新时使用的学习率Q问Q与状态相关联的值sss和行动a一个a在时间的时间步长tŤt,其中0≤αt(s,a)<10≤αŤ(s,一个)<1个0 \leq \alpha_t(s, a) < 1被假定为是真实的,对于所有状态sss和动作a一个a。 显然,由于0≤αt(s,a)<10≤αŤ(s,一个)<1个0 \leq \alpha_t(s, a) < 1,为了使两个条件是真实的,所有的状态行动对必须无限频繁地访问:这也就是书中指出强化学习:介绍,除了应该广为人知的事实,这是使用ϵϵ\epsilon在培训过程中 ϵ-贪婪策略(或类似策略)。 可以在论文《 Q学习的收敛性:简单证明》(Francisco S. Melo 撰写)中找到完整的证明,表明Q问Q学习能够找到最佳Q问Q函数。他使用诸如收缩映射之类的概念来定义最佳Q函数(另请参阅强化学习中的Bellman运算符是什么?),这是该收缩运算符的一个固定点。在给出一些假设的情况下,他还使用关于收敛到0的随机过程的定理(n。2)。(如果您不是数学家,则证明可能不容易理解。)Q问Q000 如果使用神经网络来表示Q问Q函数,那么Q问Q学习的收敛性保证是否仍然成立?使用函数逼近时,为什么Q学习会收敛(或不收敛)?是否有正式的证据证明这种不收敛Q问Q使用函数逼近 Q学习? 我正在寻找不同类型的答案,这些答案仅给出了Q不收敛背后的直觉。Q问Q提供使用函数逼近时使用学习到提供正式证明(或提供正式证明的论文链接)。