非策略学习和基于策略学习之间有什么区别？

78

人工智能网站对非政策性学习和政策性学习的定义如下：

“非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值，包括探索步骤。”

我想请您澄清一下，因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习，我不知道他们是否与所讨论的问题有任何关系。

如何独立于代理的行为来学习最佳策略？代理执行动作时不是学习策略吗？

machine-learning reinforcement-learning artificial-intelligence

— go
source

1

我在stackoverflow.com/questions/6848828/…上添加了评论，TL; NR部分也可能有助于理解。

— zyxue

这是一个很好的解释nb4799.neu.edu/wordpress/?p=1850

— Ivan Kush

我还要补充一点，即有一种SARSA的非政策变体。本文（cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf）将在导言中回顾和关闭政策，然后解释预期的sarsa。还查找预期策略梯度（EPG），以找到将这两种类型联系在一起的更通用的理论。

— 乔什·艾伯特

93

首先，没有任何理由代理商不必采取贪婪的行动。代理可以探索，也可以遵循选项。这不是将政策上的学习与政策外的学习区分开来的原因。

$s'$ $a'$

$s'$ $a''$

如果当前策略是贪婪策略，则区别消失。但是，这样的代理不会很好，因为它从来没有探索过。

您是否看过可免费在线获得的书？理查德·萨顿和安德鲁·巴托。强化学习：简介。第二版，麻省理工学院出版社，麻省剑桥，2018年。

— 尼尔·G
source

8

很好的解释！在Sutton的书中，关于Q学习的示例的表述更好：“ 学习的行动价值函数Q直接与最优行动价值函数Q *近似，与遵循的策略无关。这极大地简化了分析算法并启用早期收敛证明。该策略仍然具有一定的作用，它可以确定访问和更新了哪些状态操作对。 ”

— CiprianTomoiagă17年

3

总的来说，我觉得萨顿和巴托根本不太可读。我发现他们提供的解释不是很容易理解。我不知道为什么他们的书被推荐所有的地方

— SN

@SN对于许多强化学习的学生来说，萨顿和巴托是他们阅读的第一本书。

— 尼尔·G

3

@JakubArnold最初的Sutton＆Barto书是1998年出版的，它不包括深度强化学习。第2版仅提及AlphaGo之类的内容，但本书的重点在于更经典的方法。如果您需要更多的RL资源，请查看此列表。我建议使用David Silver的视频和Puterman的书，因为它们更加平易近人。有关更多理论材料，我推荐Bertsekas的书。请访问Spinning Up网站以获取DRL算法和原始论文的链接。

— Douglas De Rizzo Meneghetti

1

@AlbertChen“因此，在这种情况下，它是否确实取决于探索”：否，因为两种算法都在探索。不同之处在于Q的更新方式。

— 尼尔·G

12

策略方法在将策略用于控制时会估计其价值。

在非策略方法中，用于生成行为的策略称为行为策略，可能与被评估和改进的策略（称为估计策略）无关。

这种分离的优点在于，估计策略可以是确定性的（例如贪婪），而行为策略可以继续对所有可能的动作进行采样。

有关更多详细信息，请参见《增强学习：第一版的Barto和Sutton 入门》一书的5.4和5.6节。

— 恩布罗
source

7

脱离策略方法与基于策略的方法之间的区别在于，第一种方法不需要遵循任何特定策略，您的代理甚至可以随机运行，尽管如此，脱离策略方法仍可以找到最佳策略。另一方面，基于策略的方法取决于所使用的策略。对于非学习的Q-Learning，它将找到与探索过程中使用的策略无关的最佳策略，但是只有当您多次访问不同州时，这才是正确的。您可以在Watkins的原始论文中找到显示Q-Learning的非常好的特性的实际证明。但是，需要权衡取舍，即非策略方法往往比基于策略的方法要慢。这里有其他有趣摘要的链接两种方法的特性

— 朱莉
source

1

脱离策略的方法不仅速度较慢，而且与自举（即Q学习如何相互建立估算）和函数逼近器（例如神经网络）结合使用时，可能会不稳定。

— 尼尔·斯莱特

7

首先，政策（用表示）实际上意味着什么？策略指定在状态采取的动作（或更准确地说，是在状态采取动作的概率）。 $\pi$
$a$ $s$ $\pi$ $a$ $s$

第二，我们有哪些学习类型？
1.评估函数：预测将来的折价奖励之和，其中为动作，为状态。 2.找到（实际上是），它会产生最大的回报。 $Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

回到原来的问题。策略上和策略外的学习仅与第一个任务有关：评估。 $Q(s,a)$

区别在于：
在策略学习中，函数是从操作中学习的，我们使用了当前策略。在非政策学习中从不同的动作（例如随机动作）中学习函数。我们甚至根本不需要政策！ $Q(s,a)$ $\pi$
$Q(s,a)$

这是基于策略的SARSA算法的更新函数：，其中是根据策略采取的操作。 $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

将其与非政策性Q学习算法的更新功能进行比较：，其中是在状态中探测到的所有动作。 $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— 德米特里·莫特
source

1

从萨顿的书中说：“上一节中的基于策略的方法实际上是一种折衷方案，它不是针对最优策略而是针对仍在探索的近乎最优的策略来学习行动值。一种更直接的方法是使用两种策略，一种被学习并成为最佳策略的策略，另一种是探索性的用于生成行为的策略，被学习的策略称为目标策略，而用于生成行为的策略称为行为策略。在这种情况下，我们说学习是从数据中“获取”目标策略，而整个过程称为“策略学习”。

— 奥利弗·戈德斯坦
source

如果您遵循此描述，就很难说出Q学习为何偏离政策

— Albert Chen