除了游戏以外,是否有其他方法可以教授强化学习?
我在互联网上只能找到游戏代理的例子。我知道VNC通过强化网络控制游戏的输入。是否可以使用CAD软件进行设置?
除了游戏以外,是否有其他方法可以教授强化学习?
我在互联网上只能找到游戏代理的例子。我知道VNC通过强化网络控制游戏的输入。是否可以使用CAD软件进行设置?
Answers:
强化学习的很酷的例子之一是自动飞行直升机。最近,我有机会学习了吴安德和其他人所做的一些工作。这是研究论文。也有其他类似的论文。如果您想了解更多,可以在Google上搜索。
您也可以在此youtube视频中看到它的运行情况。
在强化学习文献中,您会看到很多游戏示例,因为游戏环境通常可以高效地编码,并且可以在一台包含环境和代理的计算机上快速运行。对于经典游戏,例如西洋双陆棋,西洋跳棋,国际象棋,围棋,那么我们可以与人类专家进行比较。某些游戏或简化的类似游戏的环境通常用于比较不同的方法,就像MNIST手写数字用于比较有监督的学习方法一样。
除了游戏以外,是否有其他方法可以教授强化学习?
是。非正式地,只要您可以将问题描述为在可以告知状态和影响目标奖励价值的环境中行动的主体,就可以采用强化学习方法。更正式地说,强化学习理论基于马尔可夫决策过程的解决方案,因此,如果您可以将问题描述适合于MDP,则可以应用RL中使用的各种技术,例如Q学习,SARSA和REINFORCE。这种与理论相符的方法对于使最终系统正常工作并不一定是完美的,例如,您经常可以将未知或不完全观察到的状态视为对代理有效的随机状态,并考虑随机环境的这一部分。
以下是娱乐游戏以外的强化学习的可能用途的一些示例:
电动机器人的控制逻辑,例如学习翻转薄煎饼和其他示例。在这里,环境测量是通过机器人上的物理传感器进行的。奖励是为完成目标而提供的,但也可以针对平滑度,能源的经济使用等进行调整。代理选择低级动作,例如电动机扭矩或继电器位置。从理论上讲,可以存在嵌套的代理,其中较高级别的代理为较低级别的代理选择目标-例如,机器人可能在较高级别上决定执行需要移动到不同位置的三个任务之一,而在较低级别上可能是有关如何控制电机以将机器人移动到其选定目标的决定。
自动驾驶汽车。尽管非常注重传感器的解释-看到道路标记,行人等,但仍需要一个控制系统来选择加速器,制动器和转向器。
自动金融交易。也许对某些人来说是一场游戏,在现实世界中会产生明显的后果。奖励信号非常简单,可以调整RL以偏向长期或短期收益。
是否可以使用CAD软件进行设置?
理论上是可以的,但是我不知道在实践中可以使用什么方法。另外,您还需要记住一个或多个目标,即在为代理赋予虚拟鼠标并设置绘制对象的任务之前,将其编码到代理中(作为其可以观察到的奖励值)。电脑游戏具有内置的奖励方案作为其计分系统,并提供频繁的反馈,因此代理人可以迅速获得关于好决定与坏决定的知识。您将需要用代表您基于CAD的系统目标的东西来代替此评分组件。
CAD没有内置任何合适的东西,尽管带有仿真的CAD工具(例如各种物理引擎或有限元分析)可以让您根据仿真的物理度量对设计进行评分。其他可能性包括应变分析,无浪费的材料使用,无论CAD / CAM系统可以提供部分或完整设计的任何指标。棘手的部分是将设计约束到其目标或目的,或者安排对其进行奖励,或者将约束条件纳入环境中。为RL代理提供完全不受约束的CAD过程控制并奖励最低的应变可能会导致非常无趣的事情,例如小方块。
绝对有一种方法可以将许多人所说的强化学习引入到实际的Web,移动和工作站应用程序中。
军事组织,电影业,软件中心公司都在这样做,而我已经为《财富》 500强企业和小型企业做到了。从FaceBook的面部识别机器人到Google Translate,再到USPS邮政编码识别系统再到自动飞行和交通控制系统,更大系统中嵌入的各种系统组件中都有自适应学习组件。计算机辅助设计软件(CAD)当然是可行的目标。
加固基础
考虑描述事件的一系列向量。想象一下,将它们分为A和B两个子系列。可以使用A训练神经网络(人工或生物)。
可以监督训练,这意味着向量的维度之一被认为是标签,因此被认为是最优预测的因变量。其他维度则成为事实或输入信号,因此成为用于预测的自变量。可以使用特征提取在无监督的情况下进行训练。
无论哪种方式,当在B之前提供A并预期在B到达之前在生产(实际使用)中执行时,B的较晚到达都会提供选择。
在许多情况下,选择3是最佳选择,因为它包含选择1和2的优点。从数学上讲,#3是通过以某种方式促进对系列A所学内容的抢占而完成的。由于新的经验表明有必要进行校正,因此必须使神经网络权重和元参数调整易于校正。一种天真的方法可以用数学公式表示为逆指数函数,该函数可以模拟物理学,化学和社会科学中许多现象的自然衰变。
P = e -nt,其中P是事实仍然有效的概率,n是过去学习的信息的衰减率,t是向前进展的某种度量,例如时间戳,子序列(批)数,事实序列号或事件号。
在A和B子系列的情况下,当在学习机制中以某种方式实现上述公式时,由于A 的t较小,因此A的训练将在使用B继续训练后对最终结果产生较小的偏差比B 的t表示机制,B更可能是相关的。
如果我们将A和B递归地分为两半,创建越来越细的子系列,则上述使先前信息逐渐衰减的想法仍然有效且有价值。网络对用于训练的第一信息的偏见等同于狭narrow的心理概念。已经发展成哺乳动物大脑的学习系统似乎对过去的事物忘记或失去兴趣,以鼓励思想开放,这无非就是在新信息包含更强的学习模式的情况下,有时让新的学习取代先前的学习。
允许新的示例数据逐渐超过旧的示例数据有两个原因。
随着学习的继续,使先验信息的重要性逐渐减弱的需求是强化的两个主要方面之一。第二方面是基于反馈信号的想法的一组纠正概念。
反馈与强化
强化学习中的反馈信号是机器学习,等同于熟悉的心理概念,如疼痛,愉悦,满足和健康。给学习系统提供信息,以指导训练,超越目标特征提取,分组独立性或找到近似输入事件特征与其标签之间关系的神经净重矩阵。
提供的信息可能来自内部预编程的模式识别,也可能来自外部的奖励和惩罚,就像哺乳动物一样。在强化机器学习中开发的技术和算法经常使用这些附加信号(在处理中使用时间分片),或者连续使用并行处理体系结构的处理单元的独立性来使用这些附加信号。
这项工作是由诺伯特·维纳(Norbert Wiener)在麻省理工学院开创的,并在他的《控制论》一书中提出(麻省理工学院出版社,1948年)。控制论这个词来自一个古老的词,意思是操纵船舶。方向舵的自动运动可能是第一个机械反馈系统。您的割草机引擎可能只有一个。
适应性应用和学习
不能简单地实时调整方向舵位置或割草机油门的位置。这种适应通常是某种形式的线性PID控制。今天正在扩展的机器学习技术包括对数学家称为混沌的复杂非线性系统的评估和控制。
所谓混乱,并不表示所描述的过程疯狂或混乱。混沌学家几十年前发现,简单的非线性方程可以导致高度有组织的行为。它们的意思是该现象对微小的变化过于敏感,无法找到一些固定的算法或公式来预测它们。
语言就是这样。同一句话说,有十多种不同的声音变化可能意味着十多种不同的事物。英文句子“ Really”是一个示例。增强技术很可能使未来的机器能够以较高的成功概率在该陈述的各种含义之间进行区分。
为什么要先玩游戏?
游戏具有一组非常简单且易于定义的可能场景。约翰·冯·诺伊曼(John von Neumann)是计算机出现的主要贡献者之一,他与奥斯卡·摩根斯坦(Oskar Morgenstern)合着的《游戏与经济行为理论》一书中指出,所有计划和决策实际上都是各种复杂的游戏。
考虑游戏是大脑集合的训练示例集,它们将及时创建可以确定陈述含义的系统,就像受过教育的人可以从三个提示来源中那样。
超越国际象棋和围棋
从游戏到具有准确理解力和更深聆听能力的语言系统,在强化学习中有多种应用,对于地球和人类体验而言,这些学习的意义更为重大。
这四个以及许多其他方面远比通过自动高速交易或赢得游戏竞赛来积累财富更为重要,这两个以自我为中心的机器学习兴趣仅影响一个人家庭的一两个世代。
财富和名望在博弈理论中被称为零和博弈。如果您考虑到更高的“黄金法则”哲学,即其他人及其家人对我们同等重要,那么他们所产生的损失与获得的收益一样多。
CAD(计算机辅助设计)软件的强化学习
计算机辅助设计是计算机设计的自然先驱(无需人工帮助),就像防抱死系统自然导致了全自动驾驶汽车一样。
考虑以下命令:“为我的淋浴创建一个肥皂盒,以最大程度地提高家人在不睁开眼睛的情况下第一次尝试抓住肥皂的可能性,并最大程度地减少保持肥皂和淋浴表面清洁的难度。这是我的家人和一些淋浴间的照片。” 然后,3D打印机将弹出设备,准备连接,并附带安装说明。
当然,此类CD系统(不带A的CAD)将需要进行以下方面的培训:家政,无视力的人类行为,将物品附着在瓷砖上的方式,普通消费者的工具和家庭维护能力,3D打印机的能力,以及其他几件事。
制造自动化的这种发展可能始于对简单命令的强化学习,例如“使用量产的紧固件和最佳实践来连接这两个零件”。然后,CAD程序将从螺钉,铆钉,粘合剂和其他选项中选择硬件,也许会询问设计人员有关工作温度和振动范围的问题。然后,将选择,位置和角度添加到适当的一组CAD零件,装配图和物料清单中。