Questions tagged «reinforcement-learning»

对于与由外部正强化或负反馈信号或两者控制的学习有关的问题,在学习和使用迄今为止学到的知识的同时发生。


1
Q学习和策略梯度方法之间有什么关系?
据我了解,Q学习和策略梯度(PG)是用于解决RL问题的两种主要方法。Q学习旨在预测在某种状态下采取的某种行动的回报,而政策梯度则直接预测了行动本身。 但是,这两种方法对我来说似乎都是相同的,即,预测一个动作的最大回报(Q学习)等同于预测直接采取该动作的概率(PG)。损失向后传播的方式是否有所不同?

4
在强化学习中如何处理无效动作?
我想创建一个可以玩五行/五子棋的AI。正如我在标题中提到的那样,我想为此使用强化学习。 我将策略渐变方法(即REINFORCE)与基线一起使用。对于价值和政策函数的近似,我使用了神经网络。它具有卷积和完全连接的层。除输出外,所有层都是共享的。该策略的输出层具有8 × 8 = 648×8=648 \times 8=64(单板的大小)输出单元,并在其上具有softmax。因此它是随机的。但是,如果网络产生无效移动的可能性很高,该怎么办?无效的举动是当代理要检查其中有一个“ X”或“ O”的正方形时。我认为它可能会停留在该游戏状态中。 您能为这个问题推荐任何解决方案吗? 我的猜测是使用演员批评方法。对于无效的举动,我们应该给予负奖励,并将转牌转移给对手。

2
如何定义强化学习中的状态?
我正在研究强化学习及其变体。我开始了解算法如何工作以及如何将其应用于MDP。我不了解的是定义MDP状态的过程。在大多数示例和教程中,它们表示简单的内容,例如网格中的正方形或类似内容。 对于更复杂的问题,例如机器人学习走路等,您如何定义这些状态?您可以使用学习或分类算法来“学习”那些状态吗?



3
如何在强化学习中实现受限的行动空间?
多亏了在Tensorflow之上构建的非常好的Tensorforce库,我正在使用PPO代理编写增强学习模型。 第一个版本非常简单,我现在正进入一个更复杂的环境,在该环境中,每个步骤都不提供所有操作。 假设有5个动作,它们的可用性取决于内部状态(由上一个动作和/或新的状态/观察空间定义): 2个动作(0和1)始终可用 仅当internal_state == 0时,才有2个动作(2和3)可用 1动作(4)仅在internal_state == 1时可用 因此,当internal_state == 0时有4个动作可用,而internal_state == 1时有3个动作可用。 我正在考虑实现该目标的几种可能性: 根据internal_state,在每一步更改操作空间。我认为这是胡说八道。 不执行任何操作:让模型了解选择不可用的操作没有影响。 几乎不执行任何操作:当模型选择不可用的操作时,会对奖励产生轻微的负面影响。 帮助模型:通过将整数合并到状态/观察空间中,通知模型什么是internal_state值+项目符号点2或3 还有其他方法可以实现吗?根据您的经验,哪一个最好?

1
为什么在强化学习示例中看不到辍学层?
我一直在研究强化学习,尤其是在创建自己的环境以与OpenAI Gym AI配合使用的过程中。我正在使用stable_baselines项目中的代理进行测试。 我在几乎所有RL示例中都注意到的一件事是,在任何网络中似乎都没有任何丢失层。为什么是这样? 我创建了一个模拟货币价格的环境,并使用DQN创建了一个简单的代理商,该代理商试图了解何时进行买卖。从一组包含一个月的5分钟价格数据的特定数据中进行训练的时间跨度将近一百万,这似乎过于适合了。如果我随后评估代理商,并针对不同月份的数据模型进行评估,那就太糟糕了。所以听起来像经典的过拟合。 但是,为什么没有在RL网络中看到缺失层?是否有其他机制可以解决过度拟合问题?还是在许多RL实例中都没关系?例如,在“突破”游戏中可能只有一种真正的方法来获得最终的高分,所以您不妨一口气地学到它,而不必一概而论? 还是认为环境本身的混乱性质应该提供足够多的不同结果组合,而您无需具有辍学层?

1
什么时候应该使用强化学习与PID控制?
在设计诸如OpenAIGym上的Lunar Lander之类的问题的解决方案时,强化学习是一种诱人的方法,可为特工提供足够的动作控制以使其成功着陆。 但是,在什么情况下,控制系统算法(例如PID控制器)可以很好地完成强化学习(如果不是更好的话)呢? 诸如此类的问题这一个做的是解决这个问题的理论非常出色,但无助于解决实际分量。 作为一名人工智能工程师,问题领域的哪些要素应该向我建议PID控制器不足以解决问题,而应改用强化学习算法(反之亦然)?

1
为什么DQN需要两个不同的网络?
我正在研究DQN的此实现,我发现在第124和125行上已经初始化了两个不同的Q网络。根据我的理解,我认为一个网络可以预测适当的操作,第二个网络可以预测目标Q值以查找Bellman误差。 为什么我们不能仅制作一个简单的网络来简单地预测Q值,并在两种情况下都使用它?我最好的猜测是这样做是为了减少计算时间,否则我们将不得不找出每个动作的q值,然后选择最佳动作。这是唯一原因吗?我想念什么吗?

2
为什么在使用函数逼近时Q学习无法收敛?
只要满足以下条件(关于学习率的条件)(罗宾斯-蒙罗条件),表格式Q学习算法就可以确保找到最佳Q问Q函数Q∗问∗Q^* ∑tαt(s,a)=∞∑ŤαŤ(s,一个)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑ŤαŤ2(s,一个)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty 其中αt(s,a)αŤ(s,一个)\alpha_t(s, a)意味着更新时使用的学习率Q问Q与状态相关联的值sss和行动a一个a在时间的时间步长tŤt,其中0≤αt(s,a)&lt;10≤αŤ(s,一个)&lt;1个0 \leq \alpha_t(s, a) < 1被假定为是真实的,对于所有状态sss和动作a一个a。 显然,由于0≤αt(s,a)&lt;10≤αŤ(s,一个)&lt;1个0 \leq \alpha_t(s, a) < 1,为了使两个条件是真实的,所有的状态行动对必须无限频繁地访问:这也就是书中指出强化学习:介绍,除了应该广为人知的事实,这是使用ϵϵ\epsilon在培训过程中 ϵ-贪婪策略(或类似策略)。 可以在论文《 Q学习的收敛性:简单证明》(Francisco S. Melo 撰写)中找到完整的证明,表明Q问Q学习能够找到最佳Q问Q函数。他使用诸如收缩映射之类的概念来定义最佳Q函数(另请参阅强化学习中的Bellman运算符是什么?),这是该收缩运算符的一个固定点。在给出一些假设的情况下,他还使用关于收敛到0的随机过程的定理(n。2)。(如果您不是数学家,则证明可能不容易理解。)Q问Q000 如果使用神经网络来表示Q问Q函数,那么Q问Q学习的收敛性保证是否仍然成立?使用函数逼近时,为什么Q学习会收敛(或不收敛)?是否有正式的证据证明这种不收敛Q问Q使用函数逼近 Q学习? 我正在寻找不同类型的答案,这些答案仅给出了Q不收敛背后的直觉。Q问Q提供使用函数逼近时使用学习到提供正式证明(或提供正式证明的论文链接)。

3
为什么REINFORCE算法中的折现率出现两次?
我正在阅读Richard S.Sutton和Andrew G.Barto撰写的《强化学习:入门》(初稿,2017年11月5日)。 在第271页上,给出了突发性蒙特卡洛策略梯度方法的伪代码。看着这个伪代码,我无法理解为什么折扣率似乎出现2次,一次处于更新状态,而第二次出现在返回状态。[见下图] 看来,步骤1之后的步骤返回只是第一步返回的截断。此外,如果您仅在书的上方看一页,则会发现方程式的折现率仅为1(收益率内的那一)。 为什么伪代码似乎不同?我的猜测是我误会了一些东西: θt+1 =˙ θt+αGt∇θπ(At|St,θt)π(At|St,θt).(13.6)(13.6)θt+1 =˙ θt+αGt∇θπ(At|St,θt)π(At|St,θt). {\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}

1
如何保持ML / RL社区的最新研究者?
作为一个想从事机器学习的学生,我想知道如何开始我的学习,以及如何跟随它以保持最新。例如,我愿意研究RL和MAB问题,但是关于这些主题的文献很多。而且,这些主题是由来自不同社区的研究人员研究的,例如AI和ML,运筹学,控制工程,统计等。此外,我认为每周都有几篇关于这些主题的论文出版,因此很难追踪。 如果有人可以提出一个路线图来开始研究这些主题,关注它们以及我应该如何选择和研究新发表的论文,我将非常感激。最后,我愿意了解RL和MAB问题的新趋势。

1
在多个连续动作的情况下,如何应用策略梯度?
可信区域策略优化(TRPO)和近端策略优化(PPO)是两种最先进的策略梯度算法。 通常,当使用单个连续动作时,将对损失函数使用一些概率分布(例如,高斯分布)。粗略的版本是: L (θ )= 对数(P(一个1个))A ,大号(θ)=日志⁡(P(一个1个))一个,L(\theta) = \log(P(a_1)) A, 其中一个一个A是奖励的优点,P(一个1个)P(一个1个)P(a_1)的特征在于,μμ\mu和σ2σ2\sigma^2附带像钟摆环境神经网络在这里:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。 问题是我无法使用策略梯度找到有关2种以上连续动作的任何论文(不是通过从Q函数转移梯度而使用不同方法的参与者批评方法)。 您知道如何使用TRPO在LunarLander环境中进行2次连续动作吗? 以下方法对策略梯度损失函数是否正确? L (θ )= (对数P(一个)+ 日志P(一个2))* A大号(θ)=(日志⁡P(a)+log⁡P(a2))∗AL(\theta) = (\log P(a_) + \log P(a_2) )*A

3
如果环境也是随机的,最优策略是否总是随机的?
如果环境也是随机的,最优策略是否总是随机的(即,从状态到动作的概率分布的映射)? 直观地,如果环境是确定性的(即,如果代理处于状态sss并采取操作,则下一个状态始终相同,无论在哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是状态到动作的映射,而不是动作的概率分布)。a一个as′s′s'

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.