Questions tagged «reinforcement-learning»

一组动态策略,算法可通过该策略通过自适应地采取与不同奖励相关联的动作来在线学习环境的结构,以使所获得的奖励最大化。

3
为什么总是至少有一项政策优于或等于所有其他政策?
强化学习:简介。 理查德·萨顿(Richard S.Sutton)和安德鲁·G·巴托(Andrew G.Barto)(c)2012年第二版,第67-68页。 解决强化学习任务,粗略地讲,是找到一种从长远来看会获得很多回报的政策。对于有限的MDP,我们可以通过以下方式精确定义最佳策略。值函数定义了对策略的部分排序。策略被定义为优于或等于政策如果它的预期收益大于或等于的,所有状态。换句话说,对于且仅对于所有,仅当。总有至少一项策略优于或等于所有其他策略。这是一个最佳策略。ππ\piπ′π′\pi'π′π′\pi'π≥π′π≥π′\pi \geq \pi'vπ(s)≥vπ′(s)vπ(s)≥vπ′(s)v_\pi(s) \geq v_{\pi'}(s)s∈Ss∈Ss \in \mathcal{S} 为什么总是至少有一项政策优于或等于所有其他政策?

2
关于使用神经网络进行Q学习的问题
我已经按照中所述实施了Q-Learning, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf 为了大约。Q(S,A)我使用如下的神经网络结构, 激活乙状结肠 输入,输入数量+动作神经元的1(所有输入按0-1比例缩放) 输出,单路输出。Q值 N个M隐藏层。 探索方法随机0 <rand()<propExplore 在每次学习迭代中,使用以下公式, 我计算一个Q目标值,然后使用计算一个误差, error = QTarget - LastQValueReturnedFromNN 然后通过神经网络传播错误。 Q1,我走对了吗?我已经看到了一些论文,这些论文的每个动作都实现了一个带有一个输出神经元的NN。 Q2,我的奖励函数返回-1和1之间的数字。当激活函数为S形(0 1)时,可以返回-1和1之间的数字吗? 问题3,根据我对这种方法的理解,给定足够的培训实例,应该对其进行隔离以找到最佳的政策依据?训练XOR有时会在2k次迭代后学习,有时甚至在40k 50k迭代后也不会学习。

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?


1
为什么深度强化学习不稳定?
在DeepMind于2015年发表的有关深度强化学习的论文中指出,“由于不稳定的学习,将RL与神经网络结合的先前尝试在很大程度上失败了”。然后,论文根据观察结果之间的相关性列出了造成这种情况的一些原因。 请有人可以解释一下这是什么意思吗?这是一种过度拟合的形式吗,神经网络学习了训练中存在但测试中可能没有的某种结构?还是意味着其他? 可以找到该文件:http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html 我想了解的部分是: 当使用非线性函数逼近器(例如神经网络)表示作用值(也称为Q)函数时,强化学习不稳定或发散。这种不稳定性有多种原因:观察序列中存在相关性,对Q的小更新可能会显着更改策略并因此更改数据分布的事实,以及作用值与目标值之间的相关性。 我们使用一种新颖的Q学习方法解决了这些不稳定性,该方法使用了两个关键思想。首先,我们使用一种称为经验重播的受生物学启发的机制来对数据进行随机化,从而消除观察序列中的相关性,并平滑数据分布中的变化。其次,我们使用了迭代更新,将操作值(Q)调整为仅定期更新的目标值,从而减少了与目标的相关性。


2
为什么体验重播需要脱离策略算法?
在介绍DQN“ 使用深度强化学习玩Atari ”的论文中,它提到: 请注意,在通过经验重放进行学习时,有必要学习非政策(因为我们当前的参数与用于生成样本的参数不同),这激发了选择Q学习的动机。 我不太明白这是什么意思。如果我们使用SARSA并记住a'要在s'内存中执行的操作的操作,然后像在DQN中一样从中采样批次并更新Q,该怎么办?而且,演员批评方法(特定于A3C)可以使用体验重播吗?如果没有,为什么?

2
将机器学习问题转化为回归框架
假设我有一组解释变量,其中,,还有二进制结果相关变量的向量。因此,仅在最后时间观察到,而在任何更早的时间观察不到完全一般的情况下是有多个为为每个单元在每个时间,但让我们集中在壳体为简洁。 i = 1 。。。N t =1 。。。T Y i T Y T X i j t j = 1 ... K i t K = 1XitXitX_{it}i=1...Ni=1...Ni = 1 ... Nt=1...Tt=1...Tt = 1 ... TYiTYiTY_{iT}YYYTTTXijtXijtX_{ijt}j=1...Kj=1...Kj=1...KiiitttK=1K=1K=1 具有时间相关的解释变量的“不平衡”对的应用例如(每日股票价格,季度股息),(每日天气报告,年度飓风)或(每次移动后的棋盘位置特征,赢/输结果)游戏结束)。(X,Y)(X,Y)(X, Y) 我对(可能非线性)回归系数做预测的,知道在训练数据中,给定的早期观察为它会导致最终结果βtβt\beta_t X 我吨吨&lt; Ť ÿ 我ŤYitYitY_{it}XitXitX_{it}t&lt;Tt&lt;Tt < TYiTYiTY_{iT} Y^it=f(∑tk=1Xikβk),t=1...TY^it=f(∑k=1tXikβk),t=1...T\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), …

1
如何使用线性函数逼近将权重拟合到Q值
在强化学习中,当存在较大的状态空间时,通常使用线性函数逼近。(当查找表变得不可行时。) 线性函数近似的值的形式为问-Q−Q- Q (s ,a )= w1个F1个(s ,a )+ w2F2(s ,a )+ ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, 其中是权重,f i是特征。w一世wiw_iF一世fif_i 这些功能由用户预定义。我的问题是,权重如何分配? 我已经阅读/下载了一些有关学习函数逼近的讲座幻灯片。他们中的大多数人都跟随着线性回归的幻灯片。由于它们只是幻灯片,因此往往不完整。我想知道这两个主题之间的联系/关系是什么。问-Q−Q-

2
何时使用蒙特卡洛方法优于时差方法?
最近,我一直在进行大量有关强化学习的研究。我遵循了Sutton&Barto的《强化学习:简介》。 我知道什么是马尔可夫决策过程,以及如何使用动态规划(DP),蒙特卡洛和时间差(DP)学习来解决它们。我遇到的问题是,我不知道蒙特卡洛何时会比TD学习更好的选择。 它们之间的主要区别是TD学习使用自举法来近似动作值函数,而Monte Carlo使用平均值来实现这一点。当这是更好的方法时,我只是真的无法想到一个方案。 我的猜测是,它可能与性能有关,但我找不到任何可以证明这一点的资料。 我是否缺少某些东西?或者一般来说,TD学习是更好的选择吗?


1
以神经网络为函数逼近的Q学习
我正在尝试使用神经网络来估计Q学习中的Q值,如有关使用神经网络进行Q学习的问题中所述。正如第一个答案中所建议的那样,我在输出层使用线性激活函数,而在隐藏层中仍使用S形激活函数(2,尽管稍后可以更改)。我还使用了单个NN,它根据建议为每个动作返回输出。Q(a)Q(a)Q(a) 但是,对于简单的车杆平衡问题,该算法仍存在分歧。所以,我担心我的Q更新是错误的。初始化之后,我在每个步骤中所做的工作如下: 使用NN对所有动作的前向传播计算。Qt(st)Qt(st)Q_t(s_t) 选择一个新动作,处于新状态。小号ŧatata_tststs_t 使用NN对所有动作的前向传播计算。Qt(st+1)Qt(st+1)Q_t(s_{t+1}) 将目标Q值设置为: 仅针对当前动作a_t,同时为其他状态设置Q_ {t + 1}(s,a_t)= Q_ {t}(s,a_t)。注意,我认为这是问题所在。一吨Q 吨+ 1(小号Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Qt+1(st,at)=Qt(st,at)+αt[rt+1+γmaxaQ(st+1,a)−Qt(st,at)]Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)+\alpha_t \left[r_{t+1}+\gamma \max_a Q(s_{t+1},a) - Q_t(s_t,a_t) \right]atata_t问t + 1(小号,一Ť)= QŤ(小号,一Ť)Qt+1(s,at)=Qt(s,at)Q_{t+1}(s,a_t)=Q_{t}(s,a_t) 将误差向量设置为e = QŤ 一个ř 克ë 吨- QŤ= Qt + 1- QŤË=问Ť一种[RGËŤ-问Ť=问Ť+1个-问Ť\mathbf{e}=Q_\mathrm{target}-Q_t=Q_{t+1}-Q_t 通过NN向后传播误差,以更新权重矩阵。 有人可以向我指出我哪里出问题了吗? 此外,您认为我应该在输入层和第一个隐藏层中也包含一个偏差项吗(例如,对于S型函数)?会有所作为吗? 预先非常感谢您的帮助。如果需要,我可以帮助您澄清问题或共享代码。


1
是否可以通过随机梯度下降从P(X)的非iid样本和P(Y | X)的iid样本中训练P(Y | X)的模型?
当在某些数据集上通过随机梯度下降训练参数化模型(例如,使似然性最大化)时,通常假设从训练数据分布中抽取训练样本。因此,如果目标是建模联合分布,则应从该分布中得出每个训练样本。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 如果目标是为条件分布P(Y | X)建模P(Y|X)P(Y|X)P(Y|X),那么iid需求将如何变化(如果有的话)? 我们还必须从联合分布中抽取每个样本(xi,yi)(xi,yi)(x_i,y_i) iid吗? 我们应该从P(X)绘制xixix_i iid ,然后从P(Y | X)绘制y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 我们可以从P(X)中得出xixix_i不是iid (例如随时间相关),然后从P(Y | X)中得出y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 您能否评论这三种随机梯度下降方法的有效性?(或在必要时帮助我重新说明问题。) 如果可能的话,我想做#3。我的应用程序是强化学习,其中我使用参数化条件模型作为控制策略。状态序列xixix_i是高度相关的,但是从状态为条件的随机策略中,对操作yiyiy_i进行了iid采样。结果样本(xi,yi)(xi,yi)(x_i,y_i)(或它们的子集)用于训练策略。(换句话说,想象在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随着时间而相互关联,动作也将根据状态独立地生成。)这是有点类似的情况提出。 我发现了一篇论文,Ryabko,2006年,“ 有条件独立数据的模式识别 ”,乍一看似乎很有意义。然而,那里的情况是从我需要什么,在这里逆转(标签/分类/动作)可以被延伸不IID,和(对象/模式/状态)从绘制IID。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新: Ryabko论文中提到的两篇论文(此处和此处)似乎与此处相关。他们假设来自任意过程(例如,不是iid,可能是非平稳的)。他们表明,在这种情况下,最近邻估计和核估计是一致的。但是我更感兴趣的是在这种情况下基于随机梯度下降的估计是否有效。xixix_i

2
为什么策略迭代算法会收敛到最优策略和价值函数?
我正在阅读Andrew Ng 关于强化学习的讲义,并且试图理解为什么策略迭代收敛到最优值函数和最优策略。V∗V∗V^*π∗π∗\pi^* 召回策略迭代为: 初始化 π 随机地重复{大号È 吨V :=Vπ \针对当前策略,求解贝曼方程式并将其设置为当前V大号È 吨π (s ):= a r g米一X一∈ 一∑s′P小号一(s′)五(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)} \text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := V^{\pi} \text{ \\for the current …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.