Questions tagged «q-learning»

1
Q学习和策略梯度方法之间有什么关系?
据我了解,Q学习和策略梯度(PG)是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报,而政策梯度则直接预测了行动本身。 但是,这两种方法对我来说似乎都是相同的,即,预测一个动作的最大回报(Q学习)等同于预测直接采取该动作的概率(PG)。损失向后传播的方式是否有所不同?

1
为什么DQN需要两个不同的网络?
我正在研究DQN的此实现,我发现在第124和125行上已经初始化了两个不同的Q网络。根据我的理解,我认为一个网络可以预测适当的操作,第二个网络可以预测目标Q值以查找Bellman误差。 为什么我们不能仅制作一个简单的网络来简单地预测Q值,并在两种情况下都使用它?我最好的猜测是这样做是为了减少计算时间,否则我们将不得不找出每个动作的q值,然后选择最佳动作。这是唯一原因吗?我想念什么吗?

2
为什么在使用函数逼近时Q学习无法收敛?
只要满足以下条件(关于学习率的条件)(罗宾斯-蒙罗条件),表格式Q学习算法就可以确保找到最佳Q问Q函数Q∗问∗Q^* ∑tαt(s,a)=∞∑ŤαŤ(s,一个)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑ŤαŤ2(s,一个)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty 其中αt(s,a)αŤ(s,一个)\alpha_t(s, a)意味着更新时使用的学习率Q问Q与状态相关联的值sss和行动a一个a在时间的时间步长tŤt,其中0≤αt(s,a)&lt;10≤αŤ(s,一个)&lt;1个0 \leq \alpha_t(s, a) < 1被假定为是真实的,对于所有状态sss和动作a一个a。 显然,由于0≤αt(s,a)&lt;10≤αŤ(s,一个)&lt;1个0 \leq \alpha_t(s, a) < 1,为了使两个条件是真实的,所有的状态行动对必须无限频繁地访问:这也就是书中指出强化学习:介绍,除了应该广为人知的事实,这是使用ϵϵ\epsilon在培训过程中 ϵ-贪婪策略(或类似策略)。 可以在论文《 Q学习的收敛性:简单证明》(Francisco S. Melo 撰写)中找到完整的证明,表明Q问Q学习能够找到最佳Q问Q函数。他使用诸如收缩映射之类的概念来定义最佳Q函数(另请参阅强化学习中的Bellman运算符是什么?),这是该收缩运算符的一个固定点。在给出一些假设的情况下,他还使用关于收敛到0的随机过程的定理(n。2)。(如果您不是数学家,则证明可能不容易理解。)Q问Q000 如果使用神经网络来表示Q问Q函数,那么Q问Q学习的收敛性保证是否仍然成立?使用函数逼近时,为什么Q学习会收敛(或不收敛)?是否有正式的证据证明这种不收敛Q问Q使用函数逼近 Q学习? 我正在寻找不同类型的答案,这些答案仅给出了Q不收敛背后的直觉。Q问Q提供使用函数逼近时使用学习到提供正式证明(或提供正式证明的论文链接)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.