人工智能网站对非政策性学习和政策性学习的定义如下:
“非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值,包括探索步骤。”
我想请您澄清一下,因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习,我不知道他们是否与所讨论的问题有任何关系。
如何独立于代理的行为来学习最佳策略?代理执行动作时不是学习策略吗?
人工智能网站对非政策性学习和政策性学习的定义如下:
“非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值,包括探索步骤。”
我想请您澄清一下,因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习,我不知道他们是否与所讨论的问题有任何关系。
如何独立于代理的行为来学习最佳策略?代理执行动作时不是学习策略吗?
Answers:
首先,没有任何理由代理商不必采取贪婪的行动。代理可以探索,也可以遵循选项。这不是将政策上的学习与政策外的学习区分开来的原因。
如果当前策略是贪婪策略,则区别消失。但是,这样的代理不会很好,因为它从来没有探索过。
您是否看过可免费在线获得的书? 理查德·萨顿和安德鲁·巴托。强化学习:简介。第二版,麻省理工学院出版社,麻省剑桥,2018年。
脱离策略方法与基于策略的方法之间的区别在于,第一种方法不需要遵循任何特定策略,您的代理甚至可以随机运行,尽管如此,脱离策略方法仍可以找到最佳策略。另一方面,基于策略的方法取决于所使用的策略。对于非学习的Q-Learning,它将找到与探索过程中使用的策略无关的最佳策略,但是只有当您多次访问不同州时,这才是正确的。您可以在Watkins的原始论文中找到显示Q-Learning的非常好的特性的实际证明。但是,需要权衡取舍,即非策略方法往往比基于策略的方法要慢。这里有其他有趣摘要的链接 两种方法的特性
首先,政策(用表示)实际上意味着什么?
策略指定在状态采取的动作(或更准确地说,是在状态采取动作的概率)。
第二,我们有哪些学习类型?
1.评估函数:预测将来的折价奖励之和,其中为动作,为状态。
2.找到(实际上是),它会产生最大的回报。
回到原来的问题。策略上和策略外的学习仅与第一个任务有关:评估。
区别在于:
在策略学习中,函数是从操作中学习的,我们使用了当前策略。
在非政策学习中从不同的动作(例如随机动作)中学习函数。我们甚至根本不需要政策!
这是基于策略的SARSA算法的更新函数: ,其中是根据策略采取的操作。
将其与非政策性Q学习算法的更新功能进行比较: ,其中是在状态中探测到的所有动作。
从萨顿的书中说:“上一节中的基于策略的方法实际上是一种折衷方案,它不是针对最优策略而是针对仍在探索的近乎最优的策略来学习行动值。一种更直接的方法是使用两种策略,一种被学习并成为最佳策略的策略,另一种是探索性的用于生成行为的策略,被学习的策略称为目标策略,而用于生成行为的策略称为行为策略。在这种情况下,我们说学习是从数据中“获取”目标策略,而整个过程称为“策略学习”。