人工智能 function-approximation

为什么在使用函数逼近时Q学习无法收敛？

只要满足以下条件（关于学习率的条件）（罗宾斯-蒙罗条件），表格式Q学习算法就可以确保找到最佳Q问Q函数Q∗问∗Q^* ∑tαt(s,a)=∞∑ŤαŤ（s，一个）=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑ŤαŤ2（s，一个）<∞\sum_{t} \alpha_t^2(s, a) < \infty 其中αt(s,a)αŤ（s，一个）\alpha_t(s, a)意味着更新时使用的学习率Q问Q与状态相关联的值sss和行动a一个a在时间的时间步长tŤt，其中0≤αt(s,a)<10≤αŤ（s，一个）<1个0 \leq \alpha_t(s, a) < 1被假定为是真实的，对于所有状态sss和动作a一个a。显然，由于0≤αt(s,a)<10≤αŤ（s，一个）<1个0 \leq \alpha_t(s, a) < 1，为了使两个条件是真实的，所有的状态行动对必须无限频繁地访问：这也就是书中指出强化学习：介绍，除了应该广为人知的事实，这是使用ϵϵ\epsilon在培训过程中 ϵ-贪婪策略（或类似策略）。可以在论文《 Q学习的收敛性：简单证明》（Francisco S. Melo 撰写）中找到完整的证明，表明Q问Q学习能够找到最佳Q问Q函数。他使用诸如收缩映射之类的概念来定义最佳Q函数（另请参阅强化学习中的Bellman运算符是什么？），这是该收缩运算符的一个固定点。在给出一些假设的情况下，他还使用关于收敛到0的随机过程的定理（n。2）。（如果您不是数学家，则证明可能不容易理解。）Q问Q000 如果使用神经网络来表示Q问Q函数，那么Q问Q学习的收敛性保证是否仍然成立？使用函数逼近时，为什么Q学习会收敛（或不收敛）？是否有正式的证据证明这种不收敛Q问Q使用函数逼近 Q学习？我正在寻找不同类型的答案，这些答案仅给出了Q不收敛背后的直觉。Q问Q提供使用函数逼近时使用学习到提供正式证明（或提供正式证明的论文链接）。

12 reinforcement-learning q-learning deep-rl proofs function-approximation

Questions tagged «function-approximation»