如何在强化学习中发挥奖励作用


18

在研究强化学习时,我遇到了许多形式的奖励函数:R s a s ',甚至是仅取决于当前状态的奖励函数。话虽如此,我意识到“制作”或“定义”奖励功能并非易事。[Rs一种[Rs一种s

这是我的问题:

  1. 是否有有关奖励功能的规定?
  2. 奖励功能还有其他形式吗?例如,多项式形式可能取决于状态?

Answers:


25

奖励功能描述了代理“应该”如何行为。换句话说,它们具有“规范”内容,规定了希望代理完成的任务。例如,一些有价值的状态s可能代表食物的味道。也许s一种可能代表品尝食物的行为。因此,在一定程度上,奖励功能决定了代理商的动机是什么,是的,您必须加以弥补!

没有绝对限制,但是如果您的奖励功能“表现得更好”,则代理将学习得更好。实际上,这意味着收敛速度,并且不会陷入局部最小值。但是进一步的规范将在很大程度上取决于您正在使用的强化学习的种类。例如,状态/动作空间是连续的还是离散的?世界或动作选择是随机的吗?奖励是连续收获还是仅在最后收获?

解决问题的一种方法是,奖励函数确定问题的难度。例如,传统上,我们可能会指定要奖励的单个状态:

[Rs1个=1个
[Rs2 ..ñ=0
在这种情况下,要解决的问题与之相比相当困难。例如,[Rs一世=1个/一世2,其中各州之间存在奖励梯度。对于棘手的问题,请指定更多详细信息,例如[Rs一种[Rs一种s可以通过提供额外的线索来帮助某些算法,但可能以需要更多探索为代价。您可能需要将成本作为负项包含在[R(例如,精力充沛的成本),以使问题得到明确说明。

对于连续状态空间,如果您希望代理易于学习,则奖励功能应该是连续且可微的。因此多项式可以很好地适用于许多算法。此外,尝试删除本地化的最小值。有许多关于如何制作奖励函数的示例,例如Rastrigin函数。话虽如此,几种RL算法(例如Boltzmann机器)对此具有一定的鲁棒性。

如果您使用RL解决实际问题,则可能会发现尽管找到奖励函数是问题中最困难的部分,但它与如何指定状态空间密切相关。例如,在与时间有关的问题中,到目标的距离通常使奖励功能不佳(例如,在山地车问题中)。可以通过使用更高维度的状态空间(隐藏状态或内存跟踪)或分层RL来解决此类情况。

从抽象的层面上讲,无监督的学习应该避免规定“对与错”的表现。但是现在我们可以看到,RL只是将责任从教师/批评者转移到了奖励职能上。解决该问题的方法较少循环:即推断最佳奖励函数。一种方法称为反向RL或“学徒制学习”,它生成一种奖励函数,该函数将重现观察到的行为。寻找最佳的奖励函数来重现一组观察结果,也可以通过MLE,贝叶斯或信息理论方法来实现-如果您用Google搜索“逆强化学习”。


嗨,为什么山地车问题是一个与时间有关的问题?
GoingMyWay '18

我认为山车问题是“时间相关的”,因为该问题需要网络提供适当的命令顺序或确定顺序的策略。这个想法是,如果仅将“位置”视为状态,那么该问题就很难解决-您还需要考虑速度(或动能等)。对于在与时间有关的问题中明智地选择状态空间的问题,这实际上就是我的意思。
桑杰·马诺哈

@SanjayManohar我不认为山地车问题不是“时间依赖性”的,除非您是说时间依赖性是指引入有限的时间范围。位置和速度就足够了。
user76284

我认为这个答案混合了奖励和价值功能。例如,它谈论“发现”奖励函数,这可能是您在逆向强化学习中所做的事情,而不是在用于控制的RL中所做的事情。此外,它还讨论了奖励功能必须连续且可微的问题,这不仅不是必需的,而且通常不是这种情况。与找到一些精心构建的可区分启发式方法相比,您更有可能找到简单的+1来获得成功,或者在文献中每个时间步长上固定-1。
尼尔·斯莱特

感谢@NeilSlater,您说得对,我应该说“构建”奖励函数而不是找到它。关于“价值函数”,我通常将此术语保留为状态-价值或行为-价值映射,即代理用来估计未来回报的函数。因此,“价值”与“奖励”有关,但奖励是问题的一部分,而不是解决问题的算法。也许AI的重点是通过规定二进制,远端,稀疏奖励来炫耀您的学习算法-但是,如果您可以控制奖励功能,那么“美好”的生活会更轻松。
Sanjay Manohar

4

设计奖励功能确实是一个难题。通常,稀疏奖励函数更容易定义(例如,如果您赢得游戏,则获得+1,否则获得0)。但是,稀疏的奖励也会减慢学习速度,因为代理在获得任何奖励之前需要采取很多行动。此问题也称为学分分配问题

除了使用表格表示奖励外,您还可以使用连续函数(例如多项式)。当状态空间和动作空间是连续的而不是离散的时,通常就是这种情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.