人工智能 q-learning

1

据我了解，Q学习和策略梯度（PG）是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报，而政策梯度则直接预测了行动本身。但是，这两种方法对我来说似乎都是相同的，即，预测一个动作的最大回报（Q学习）等同于预测直接采取该动作的概率（PG）。损失向后传播的方式是否有所不同？

20 reinforcement-learning q-learning policy-gradients comparison

1

为什么DQN需要两个不同的网络？

我正在研究DQN的此实现，我发现在第124和125行上已经初始化了两个不同的Q网络。根据我的理解，我认为一个网络可以预测适当的操作，第二个网络可以预测目标Q值以查找Bellman误差。为什么我们不能仅制作一个简单的网络来简单地预测Q值，并在两种情况下都使用它？我最好的猜测是这样做是为了减少计算时间，否则我们将不得不找出每个动作的q值，然后选择最佳动作。这是唯一原因吗？我想念什么吗？

12 reinforcement-learning q-learning dqn

2

为什么在使用函数逼近时Q学习无法收敛？

只要满足以下条件（关于学习率的条件）（罗宾斯-蒙罗条件），表格式Q学习算法就可以确保找到最佳Q问Q函数Q∗问∗Q^* ∑tαt(s,a)=∞∑ŤαŤ（s，一个）=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑ŤαŤ2（s，一个）<∞\sum_{t} \alpha_t^2(s, a) < \infty 其中αt(s,a)αŤ（s，一个）\alpha_t(s, a)意味着更新时使用的学习率Q问Q与状态相关联的值sss和行动a一个a在时间的时间步长tŤt，其中0≤αt(s,a)<10≤αŤ（s，一个）<1个0 \leq \alpha_t(s, a) < 1被假定为是真实的，对于所有状态sss和动作a一个a。显然，由于0≤αt(s,a)<10≤αŤ（s，一个）<1个0 \leq \alpha_t(s, a) < 1，为了使两个条件是真实的，所有的状态行动对必须无限频繁地访问：这也就是书中指出强化学习：介绍，除了应该广为人知的事实，这是使用ϵϵ\epsilon在培训过程中 ϵ-贪婪策略（或类似策略）。可以在论文《 Q学习的收敛性：简单证明》（Francisco S. Melo 撰写）中找到完整的证明，表明Q问Q学习能够找到最佳Q问Q函数。他使用诸如收缩映射之类的概念来定义最佳Q函数（另请参阅强化学习中的Bellman运算符是什么？），这是该收缩运算符的一个固定点。在给出一些假设的情况下，他还使用关于收敛到0的随机过程的定理（n。2）。（如果您不是数学家，则证明可能不容易理解。）Q问Q000 如果使用神经网络来表示Q问Q函数，那么Q问Q学习的收敛性保证是否仍然成立？使用函数逼近时，为什么Q学习会收敛（或不收敛）？是否有正式的证据证明这种不收敛Q问Q使用函数逼近 Q学习？我正在寻找不同类型的答案，这些答案仅给出了Q不收敛背后的直觉。Q问Q提供使用函数逼近时使用学习到提供正式证明（或提供正式证明的论文链接）。

12 reinforcement-learning q-learning deep-rl proofs function-approximation

Questions tagged «q-learning»