哪些奖励功能可导致最佳学习?


13

让我们考虑以下情况:

  • 您正在教机器人打乒乓球
  • 您正在教一个程序来计算平方根
  • 您正在学校为一个孩子教数学

在这些情况下(即监督学习),许多其他情况(在其他情况中)有一个共同点:学习者根据其表现获得奖励。

我的问题是,奖励函数应该是什么样的?是否有“最佳”答案,还是取决于情况?如果取决于情况,如何确定选择哪种奖励功能?

例如,采用以下三个奖励功能:

在此处输入图片说明

  • 函数A说:
    • 在某一点以下,坏或坏都是一样的:您一无所获
    • 几乎完美与完美之间有明显的区别
  • 函数B说:
    • 您获得的奖励与您的表现成线性比例
  • 函数C说:
    • 如果你的表现不好,没关系,你就尽力了:你仍然会得到一些回报
    • 完美与几乎完美之间没有太大区别

凭直觉,我认为A这会使机器人非常专注并学习确切的模式,但是在处理类似模式时C会变得愚蠢,同时会使它更适应更改,但会失去完美性。

人们可能还会想到更复杂的功能,只是为了展示而已:

在此处输入图片说明

那么,如何知道选择哪个功能呢?这是已知的行为会从(至少)基本出现ABC功能?


附带的问题是,这对于机器人和人类孩子来说会根本不同吗?


我怀疑机器人会一遍又一遍地执行相同或类似的事情而变得愚蠢,除非是控制论的。
ott--

@ott,那不是我的意思。我的意思是说A,该机器人具有类似于的奖励功能,该机器人在完成确切的任务时可能会变得非常擅长,但在相似但略有不同的任务上却会很糟糕。不过那只是我的猜测。
Shahbaz的

啊,好的,我明白了。您正在考虑打网球,例如
ott--

也许这背后的理论可能很复杂,但是一个回答说“我认为许多机器人执行不同的任务并且经常运行X会给我最好的结果”,即使不是完全正确,也会给出很好的经验法则。
Shahbaz的

Answers:


5

简短的答案:最强的强化效果来自在间歇性(随机)时间表上提供有价值的奖励。

较长的版本:您的问题的一个方面是关于操作条件的,至少适用于对复杂有机体进行数学教学的条件。将其应用于机器学习称为强化学习

经济学(按照jwpat7的答案)仅涉及强化的故事。效用函数可以告诉您在给定背景下哪种奖励具有最强的强化作用(对行为的最大影响)。是赞美吗?巧克力?可卡因?直接电刺激大脑的某些区域?多数情况下,我的答案是关于上下文的影响的,假设给定了奖励功用。

对于复杂的生物/行为,奖励计划至少与奖励效用一样重要:

  • “固定间隔奖励计划”是修改与奖励一定量的行为至少有效的方法(我给你$每周10如果你把你的卧室整洁)。想想都尔·布兰奇
  • 固定比例的奖励计划(我有一个整洁的卧室,我每7天给您10 美元)比固定间隔更有效,但是它们有一个有效的上限(当他们饿了$时,对象会整理房间七次)10,但不是这样)。想想佣兵。
  • 最有影响力的方式是通过“可变间隔强化时间表”提供给定的奖励(例如,每天收拾房间,您就有1/7的机会获得10美元)。想想扑克机。

如果您是具有固定奖励预算的学习主管,则对于给定的学习情况,奖励大小(效用)和频率之间将达到最佳平衡。它可能不是很高频率的一小部分奖励,也不是很少提供的很大一部分奖励。它甚至可能是按随机时间表进行的随机大小奖励-通常针对特定情况通过实验确定最佳值。

最后,“最佳”时间表(随机频率,随机量{p(reward),p(value)})可能会在学习过程的不同阶段发生变化。例如,一个新生可能会受到“首要”效应的影响(欢迎!有一个软心豆粒糖),如果您反复重复,它很快就会变成固定间隔的奖励。可能存在“新近度”效应,该效应可以从最后一次审判中获得的奖励中获得更大的强化价值(“高调完成”)。在这两者之间,可能存在累积的“信念效应”,其中随着学习者变得越来越有经验,最优值可能会随着时间的流逝而朝着更低的概率,更高的效用转移。同样,您需要根据实际情况确定更多内容。


非常有趣的答案。这很有道理。
Shahbaz 2013年

我正在重新阅读此答案,并且我想再次说一下这个答案有多棒!实际上,让我给您一些赏赐!
Shahbaz

6

“最佳学习”是一个非常模糊的术语,它完全取决于您正在处理的特定问题。您要查找的术语是“ 过拟合 ”: 在此处输入图片说明

(绿线是在训练数据上预测结果的误差,紫线是模型的质量,红线是在生产中使用的学习模型的误差)

换句话说:当谈到适应你的学习的行为类似problmes,你怎么回报你的系统是不是那么重要了多少次,你的回报-你要减少失误在训练数据,但不能把它训练了,长期以来,它失去了在类似模型上工作的能力。

解决此问题的一种方法是将训练数据减少一半:使用一半进行学习,另一半进行验证。它可以帮助您确定何时开始过度适应。

非线性奖励函数

大多数监督学习算法期望奖励函数的应用将产生凸输出。换句话说,在该曲线中具有局部最小值将阻止您的系统收敛到正确的行为。 该视频显示了成本/奖励功能背后的一些数学原理


3

这些问题在一定程度上通过经济学中效用函数的研究得以解决。效用函数表示一件事物的有效价值或感知价值。(虽然问题中显示的曲线是奖励函数,并表示将针对各种绩效水平提供多少奖励,但是外观相似的效用函数可以表示各种奖励水平产生的绩效多少。)

哪种奖励功能最有效,取决于付款人和执行者之间的平衡。Wikipedia 合同曲线文章使用Edgeworth框说明了如何找到Pareto有效分配。的冯·诺伊曼一摩根斯坦效用定理描绘的是确保的药剂是VNM理性和可被表征为具有效用函数的条件。维基百科中双曲线绝对风险规避文章的“由HARA效用产生的行为预测”部分描述了某些效用函数的行为后果。

简介:这些主题是经济学和微观经济学中大量研究的主题。不幸的是,摘录一个简短而有用的摘要来回答您的问题也可能需要大量的工作,或者需要比我更专业的人的注意。


这很复杂,我不确定是否理解。但是您确定经济学的效用函数也适用于机器人技术吗?在(机器人的)监督学习中,付款人实际上没有损失任何东西。奖励通常只是一个数字,告诉机器人执行任务的能力。
Shahbaz的

1

最佳奖励函数取决于学习目标,即要学习的内容。对于简单的问题,有可能找到最佳奖励函数的封闭形式表示。实际上,对于非常简单的问题,我相信这是有可能的,尽管我不知道这样做的正式方法(我怀疑效用理论会解决这个问题)。对于更复杂的问题,我认为不可能找到封闭式解决方案。

与其寻求最佳功能,不如找专家寻求良好的奖励功能。一种这样做的方法是一种称为逆向强化学习(IRL)的技术。它将学习问题表述为强化学习问题,其中奖励函数未知且学习过程的目标不明确。Pieter AbbeelAndrew Ng的论文《通过逆向强化学习进行学徒制学习》是开始学习IRL的好地方。


0

任何形式的监督学习都是在政策空间中进行的定向搜索。您尝试找到该策略-采取哪种措施-该策略提供了最大的期望回报。在您的问题中,您根据绩效给予奖励。只要该函数是单调的,那么任何会收敛的方法最终都将最终为您提供最佳性能(与您的术语保持一致)。

该方法收敛的速度是另一回事,并且很可能取决于曲线。但是我认为这将因方法而异。

完全不同的问题是,对于更复杂的场景,性能不是简单的标量,并且定义它可能非常困难。擅长数学的奖励函数是什么?


该方法收敛的速度是另一回事,并且很可能取决于曲线。, 嗯,当然。我想了解如何曲线影响学习(而不是,如果是的话,因为我已经知道它)。
沙巴兹
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.