除了游戏以外，还有强化学习的应用吗？

除了游戏以外，是否有其他方法可以教授强化学习？

我在互联网上只能找到游戏代理的例子。我知道VNC通过强化网络控制游戏的输入。是否可以使用CAD软件进行设置？

reinforcement-learning applications

是的，这是可能的，但真正的问题应该是它是否比其他算法更有效。如果您有一个特定的目标，则可以考虑并将其建模为游戏（甚至生活就是游戏；））。实际上，许多成功的AI都利用了不止一种技术。看看这个：datascience.stackexchange.com/questions/11126/…–

— TasosGlrs

关于AlphaGo的要点是，特定类型的游戏（非平凡，非机会，完美的信息）尤其为AI提供了绝佳的试验场，因为这些游戏具有非常简单的参数，但具有类似于自然的复杂性。从某种角度讲，游戏是最有用的人工制品，因为它们教授抽象和战略性思维。要了解游戏的重要性，请查看游戏理论对计算机科学的影响。

— 周公克

这可能是由于NDA。最好的学习应用程序是专有的，最好的蜂窝塔软件或最好的语音识别或最好的在线购物中心也是如此。一般而言，这是工程学。

— FauChristian

对。如果所有人都有博弈论，那么世界就变成了一场博弈。

— FelicityC

Answers:

强化学习的很酷的例子之一是自动飞行直升机。最近，我有机会学习了吴安德和其他人所做的一些工作。这是研究论文。也有其他类似的论文。如果您想了解更多，可以在Google上搜索。

您也可以在此youtube视频中看到它的运行情况。

显然，这是另一个完全不同的金融应用。

在强化学习文献中，您会看到很多游戏示例，因为游戏环境通常可以高效地编码，并且可以在一台包含环境和代理的计算机上快速运行。对于经典游戏，例如西洋双陆棋，西洋跳棋，国际象棋，围棋，那么我们可以与人类专家进行比较。某些游戏或简化的类似游戏的环境通常用于比较不同的方法，就像MNIST手写数字用于比较有监督的学习方法一样。

除了游戏以外，是否有其他方法可以教授强化学习？

是。非正式地，只要您可以将问题描述为在可以告知状态和影响目标奖励价值的环境中行动的主体，就可以采用强化学习方法。更正式地说，强化学习理论基于马尔可夫决策过程的解决方案，因此，如果您可以将问题描述适合于MDP，则可以应用RL中使用的各种技术，例如Q学习，SARSA和REINFORCE。这种与理论相符的方法对于使最终系统正常工作并不一定是完美的，例如，您经常可以将未知或不完全观察到的状态视为对代理有效的随机状态，并考虑随机环境的这一部分。

以下是娱乐游戏以外的强化学习的可能用途的一些示例：

电动机器人的控制逻辑，例如学习翻转薄煎饼和其他示例。在这里，环境测量是通过机器人上的物理传感器进行的。奖励是为完成目标而提供的，但也可以针对平滑度，能源的经济使用等进行调整。代理选择低级动作，例如电动机扭矩或继电器位置。从理论上讲，可以存在嵌套的代理，其中较高级别的代理为较低级别的代理选择目标-例如，机器人可能在较高级别上决定执行需要移动到不同位置的三个任务之一，而在较低级别上可能是有关如何控制电机以将机器人移动到其选定目标的决定。
自动驾驶汽车。尽管非常注重传感器的解释-看到道路标记，行人等，但仍需要一个控制系统来选择加速器，制动器和转向器。
自动金融交易。也许对某些人来说是一场游戏，在现实世界中会产生明显的后果。奖励信号非常简单，可以调整RL以偏向长期或短期收益。

是否可以使用CAD软件进行设置？

理论上是可以的，但是我不知道在实践中可以使用什么方法。另外，您还需要记住一个或多个目标，即在为代理赋予虚拟鼠标并设置绘制对象的任务之前，将其编码到代理中（作为其可以观察到的奖励值）。电脑游戏具有内置的奖励方案作为其计分系统，并提供频繁的反馈，因此代理人可以迅速获得关于好决定与坏决定的知识。您将需要用代表您基于CAD的系统目标的东西来代替此评分组件。

CAD没有内置任何合适的东西，尽管带有仿真的CAD工具（例如各种物理引擎或有限元分析）可以让您根据仿真的物理度量对设计进行评分。其他可能性包括应变分析，无浪费的材料使用，无论CAD / CAM系统可以提供部分或完整设计的任何指标。棘手的部分是将设计约束到其目标或目的，或者安排对其进行奖励，或者将约束条件纳入环境中。为RL代理提供完全不受约束的CAD过程控制并奖励最低的应变可能会导致非常无趣的事情，例如小方块。

— 尼尔·斯莱特
source

很多合适的事情：自动标注尺寸以最大程度地获得视觉清晰度；干涉搜索应变下的活动部件（无FEA）；优化CAM输出；使用近似z深度信息来渲染加速度；等等

— FauChristian

@FauChristian：我不确定所有这些都可以作为游戏分数来作为奖励信号。例如，优化设计以减少应力意味着您的设计有一个目的 -您还必须添加一些约束/规则来跟踪该目的，除非您还进行了一些人体工程学分析，否则这可能会很难。但是，该评论增加了我可能提到的一些内容，并将增加答案。

— 尼尔·斯莱特

是。真正。我会尽力。请原谅我需要的注释字符串。在以上每种情况下，我的目标都是将机械设计人员的关注点汇总为一个可以指导迭代的健康信号，同时要记住一个事实，即可能存在多个NN器官，每个器官都有不同的集合。但是为了简单起见，我将每种情况汇总为一个标量。其中大多数都需要具有随机元素，因为CAD中的大多数情况在合计值的表面上都有多个临界点。

— FauChristian

自动尺寸标注— w = sqrt（Σmin（s_clear，s_nice））+ k n_jumps，...，其中w是图形尺寸标注状态的质量集合，可从中得出标准化的反馈信号s_clear是尺寸线与除跳线以外的最近其他线之间的距离，s_nice是表示要缩放尺寸的图纸类型的线之间的间隙的良好距离的元参数，k是常数，n_jumps是跳线的数量（线会交叉，但其中两条线之间有一个间隙，表示它正在跳到另一条线的后面。

— FauChristian

干扰搜索— w = n，...，其中... w是干扰搜索的质量集合，n是将迭代猜测输入动态猜测后发现的干扰数。这就像一场游戏，其中正确的干扰猜测得越高，得分就越高。

— FauChristian

绝对有一种方法可以将许多人所说的强化学习引入到实际的Web，移动和工作站应用程序中。

军事组织，电影业，软件中心公司都在这样做，而我已经为《财富》 500强企业和小型企业做到了。从FaceBook的面部识别机器人到Google Translate，再到USPS邮政编码识别系统再到自动飞行和交通控制系统，更大系统中嵌入的各种系统组件中都有自适应学习组件。计算机辅助设计软件（CAD）当然是可行的目标。

加固基础

考虑描述事件的一系列向量。想象一下，将它们分为A和B两个子系列。可以使用A训练神经网络（人工或生物）。

可以监督训练，这意味着向量的维度之一被认为是标签，因此被认为是最优预测的因变量。其他维度则成为事实或输入信号，因此成为用于预测的自变量。可以使用特征提取在无监督的情况下进行训练。

无论哪种方式，当在B之前提供A并预期在B到达之前在生产（实际使用）中执行时，B的较晚到达都会提供选择。

使用A擦除权重和在进行训练期间所做的任何元参数调整，然后使用A和B的串联序列重新运行训练。
继续使用B进行训练，在这种情况下，网络将受到A的偏向，其结果将不同于通过B然后接受A的训练所获得的结果。
找到一种方法来限制先接受A训练的偏见，同时避免上述选择＃1所需的资源消耗。

在许多情况下，选择3是最佳选择，因为它包含选择1和2的优点。从数学上讲，＃3是通过以某种方式促进对系列A所学内容的抢占而完成的。由于新的经验表明有必要进行校正，因此必须使神经网络权重和元参数调整易于校正。一种天真的方法可以用数学公式表示为逆指数函数，该函数可以模拟物理学，化学和社会科学中许多现象的自然衰变。

P = e ^-nt，其中P是事实仍然有效的概率，n是过去学习的信息的衰减率，t是向前进展的某种度量，例如时间戳，子序列（批）数，事实序列号或事件号。

在A和B子系列的情况下，当在学习机制中以某种方式实现上述公式时，由于A 的t较小，因此A的训练将在使用B继续训练后对最终结果产生较小的偏差比B 的t表示机制，B更可能是相关的。

如果我们将A和B递归地分为两半，创建越来越细的子系列，则上述使先前信息逐渐衰减的想法仍然有效且有价值。网络对用于训练的第一信息的偏见等同于狭narrow的心理概念。已经发展成哺乳动物大脑的学习系统似乎对过去的事物忘记或失去兴趣，以鼓励思想开放，这无非就是在新信息包含更强的学习模式的情况下，有时让新的学习取代先前的学习。

允许新的示例数据逐渐超过旧的示例数据有两个原因。

如果所有经历（训练）的事件都代表系统正在尝试学习的外部世界的合理事实，那么上述消除早期学习的偏见就足以权衡进一步学习中的最近事件是有意义的。
外部世界可能正在发生变化，较早的学习实际上可能变得无关紧要，甚至会产生误导。

随着学习的继续，使先验信息的重要性逐渐减弱的需求是强化的两个主要方面之一。第二方面是基于反馈信号的想法的一组纠正概念。

反馈与强化

强化学习中的反馈信号是机器学习，等同于熟悉的心理概念，如疼痛，愉悦，满足和健康。给学习系统提供信息，以指导训练，超越目标特征提取，分组独立性或找到近似输入事件特征与其标签之间关系的神经净重矩阵。

提供的信息可能来自内部预编程的模式识别，也可能来自外部的奖励和惩罚，就像哺乳动物一样。在强化机器学习中开发的技术和算法经常使用这些附加信号（在处理中使用时间分片），或者连续使用并行处理体系结构的处理单元的独立性来使用这些附加信号。

这项工作是由诺伯特·维纳（Norbert Wiener）在麻省理工学院开创的，并在他的《控制论》一书中提出（麻省理工学院出版社，1948年）。控制论这个词来自一个古老的词，意思是操纵船舶。方向舵的自动运动可能是第一个机械反馈系统。您的割草机引擎可能只有一个。

适应性应用和学习

不能简单地实时调整方向舵位置或割草机油门的位置。这种适应通常是某种形式的线性PID控制。今天正在扩展的机器学习技术包括对数学家称为混沌的复杂非线性系统的评估和控制。

所谓混乱，并不表示所描述的过程疯狂或混乱。混沌学家几十年前发现，简单的非线性方程可以导致高度有组织的行为。它们的意思是该现象对微小的变化过于敏感，无法找到一些固定的算法或公式来预测它们。

语言就是这样。同一句话说，有十多种不同的声音变化可能意味着十多种不同的事物。英文句子“ Really”是一个示例。增强技术很可能使未来的机器能够以较高的成功概率在该陈述的各种含义之间进行区分。

为什么要先玩游戏？

游戏具有一组非常简单且易于定义的可能场景。约翰·冯·诺伊曼（John von Neumann）是计算机出现的主要贡献者之一，他与奥斯卡·摩根斯坦（Oskar Morgenstern）合着的《游戏与经济行为理论》一书中指出，所有计划和决策实际上都是各种复杂的游戏。

考虑游戏是大脑集合的训练示例集，它们将及时创建可以确定陈述含义的系统，就像受过教育的人可以从三个提示来源中那样。

对话或社交场景中的上下文
说话者的声音变化
说话人的面部表情和肢体语言

超越国际象棋和围棋

从游戏到具有准确理解力和更深聆听能力的语言系统，在强化学习中有多种应用，对于地球和人类体验而言，这些学习的意义更为重大。

学习如何关闭或衰减灯，电器，数字系统，HVAC和其他耗能设备的系统-能源可能是人类历史上最具地缘政治影响力的商品，因为随着时间的推移化石燃料资源会耗尽。
自动驾驶汽车的开发-处于未知状态的人在开阔的道路上操作重型设备（如飞机，房车，卡车，公共汽车和拖拉机拖车）的危险趋势可能会被未来的人们视作精神错乱。
信息可靠性的等级—信息无处不在，超过99％的信息有部分或全部错误。真正的研究（通过适当设计和解释的双盲随机研究或可验证的实验室测试和分析）无法验证。
可以更好地诊断，针对个人制定补救措施并协助持续护理以防止复发的医疗保健应用程序。

这四个以及许多其他方面远比通过自动高速交易或赢得游戏竞赛来积累财富更为重要，这两个以自我为中心的机器学习兴趣仅影响一个人家庭的一两个世代。

财富和名望在博弈理论中被称为零和博弈。如果您考虑到更高的“黄金法则”哲学，即其他人及其家人对我们同等重要，那么他们所产生的损失与获得的收益一样多。

CAD（计算机辅助设计）软件的强化学习

计算机辅助设计是计算机设计的自然先驱（无需人工帮助），就像防抱死系统自然导致了全自动驾驶汽车一样。

考虑以下命令：“为我的淋浴创建一个肥皂盒，以最大程度地提高家人在不睁开眼睛的情况下第一次尝试抓住肥皂的可能性，并最大程度地减少保持肥皂和淋浴表面清洁的难度。这是我的家人和一些淋浴间的照片。” 然后，3D打印机将弹出设备，准备连接，并附带安装说明。

当然，此类CD系统（不带A的CAD）将需要进行以下方面的培训：家政，无视力的人类行为，将物品附着在瓷砖上的方式，普通消费者的工具和家庭维护能力，3D打印机的能力，以及其他几件事。

制造自动化的这种发展可能始于对简单命令的强化学习，例如“使用量产的紧固件和最佳实践来连接这两个零件”。然后，CAD程序将从螺钉，铆钉，粘合剂和其他选项中选择硬件，也许会询问设计人员有关工作温度和振动范围的问题。然后，将选择，位置和角度添加到适当的一组CAD零件，装配图和物料清单中。

— 道格拉斯·达西斯科（Douglas Daseeco）
source

我通常不会对写得很好的答案做出批评性的评论，但由于您提出了批评，我认为，尽管有趣的是《增强基础，反馈和增强以及适应性应用和学习》一节，但由于OP的问题已经暗示了对RL的一些了解，在解决原始问题之前，您花费了大量时间来进行相关的背景讨论。

— 尼尔·斯莱特

OP提出的问题表明，要么表明该领域新手的当前研究状态，要么需要前面部分中的入门知识。最后一部分更直接地回答了这个问题。

— FauChristian