神经网络可以解决距离的概念吗?


10

想象一个游戏,它是一个黑屏,一个红色像素和一个蓝色像素。将这个游戏交给人类,他们将首先看到按下箭头键将移动红色像素。他们将尝试的下一件事是将红色像素移动到蓝色像素。

将此游戏交给AI,它将随机移动红色像素,直到一百万次尝试之后,它意外移动到蓝色像素上以获得奖励。如果AI具有红色和蓝色像素之间的距离的某种概念,则它可能会尝试最小化该距离。

如果不对距离的概念进行实际编程,那么如果我们拿游戏中的像素作为像素,我们是否可以计算出一个数字(例如“熵”),那么当像素相距较远而与彼此靠近时,该数字会更低吗?它应与其他像素配置一起使用。例如具有三个像素的游戏,其中一个像素好,一个像素坏。只是为了让神经网络更了解屏幕的外观?然后给NN一个目标,例如“尝试最小化董事会的熵并尝试获得奖励”。

在当前的研究中有什么与此类似的东西吗?


我认为您不会直接将其送入图像并让它找到距离...而是将其送入一组代表距离,垂直距离,水平距离等的
数字。– FreezePhoenix

@Pheo是的,但是您必须为每种类型的“游戏”提供不同的值。我要说的是,是否可以有某种全局值,当像素分组在一起时是高值,而当像素间隔开时是低值?
zooby

他们下一步将尝试将红色像素移动到蓝色像素。可能不会,“红色”和“蓝色”通常是敌人,因此您将在蓝色像素通知您之前开始增加距离。

Answers:


1

回答

我将以您的面值提出您的问题,并深入探讨该主题。

是的他们可以。典型的人类思维可以。但是要考虑人的思想。数百万甚至数十亿的神经元。实际上,人们可以将距离视为人类的概念,仅仅是一种与世界互动而发展的理论。

因此,给定一两年的时间,手上有大量的神经元,您可以复制这种情况。那就是您的计算机与人的思维一样平行。简短的解释是,人类的思想是非常平行的。

但是,使用程序而不是AI计算距离会更简单,只需将结果提供给可以做出决定的AI。

考虑一下您花在看屏幕上的时间。如果您能分辨出两个像素之间的(近似)距离,那么神经网络也可以像您一样分辨。但是,将您花在学习和学习上的时间加到公式中,这将成为一场灾难。

进一步阅读

人脑是平行的

这是因为人脑中的所有神经元彼此独立。它们可以执行真正的同时动作,从而使解释图像的动作变得更加容易,因为神经元块可以独立于其他神经元的操作而“思考”,从而将“滞后”限制在很小的数量上。


1

您可以创建AI以将其“视为”人类。如您所说,给人类提供密钥,他将随机单击。他只需要知道他按了哪些键就可以使其更靠近屏幕上的其他对象。我认为AI的基础是对象识别。我将尝试创建一个脚本来映射游戏的屏幕对象。Python中有合法的示例。

我会尝试遵循这样的路径:

  • 通过单击箭头或WASD使AI理解,它位于上下文GAME中,该对象根据方向移动像素,代表了主要作者(玩家)。

  • 并行:映射区域的所有边界并索引该区域内的不同对象,以自动获得坐标域和对象距离。AI需要通过图像查看(流)游戏并分类对象。你明白我的意思吗?

  • 并行:AI需要知道屏幕上的所有文本和信息(全部映射,还记得吗?)您需要了解何时文本更改或发生其他变化。例如:每当他返回到每个阶段的初始位置,每当有计数时,当cout达到零或产生另一种类型的变化的通用数字时,会发生什么。

  • 他需要了解每个“重生”重复的内容。您还需要了解什么是“重生”。每当屏幕上的计数结束时,它可能会在返回的每个地图上确定某个地图位置。或遇到某种类型的对象(映射对象)时

老实说,如果您想创建一个超级智能的机器人,则可以遵循不同人类,最优秀人类或每个游戏规则所经历的所有步骤。但是有时候构建特定的机器人来执行特定的任务会更容易。这取决于你想做什么


他不问怎么你会做它,而是可以你做到这一点。
FreezePhoenix

可以通过几种方式来做到这一点。我通过了创建模板的方式。这不是理论,而是根据AI的发展可以包含其他过程的过程。
Guilherme IA

1

您提到的是路径规划完美示例,该示例已在AI中进行了广泛研究。

请寻找A-star算法以及如何通过神经网络对其进行增强:)


1

我们可以按以下方式分解问题:

<x0,y0,x1,y1>(x0y0)2+(x1y1)2

<x0,y0,x1,y1>

当然,没有理由在两个单独的神经网络中执行此操作,因此我们可以将两个端到端模型结合起来,以图像作为输入,距离作为输出。

但是,此模型需要在标记的数据上进行训练,因此您需要自己生成数据或标记图像。

但是,如果您希望它学习以一种较少监督的方式来学习缩小距离的概念,则需要使用强化学习。在这种情况下,您必须设置一个使代理人兴奋的环境以缩短距离。如果行动减少了距离,这就像获得奖励一样简单。

另一种方法是使用未来奖励来激励代理商。也就是说,它的奖励不仅来自下一个即时状态的结果,而且还来自下一个可能状态的贡献,以及下一个可能状态的贡献,依此类推。这是Deep Q-Learning背后的思想,我在此笔记本中实现了一个简单的示例(与您所描述的非常相似)。

因此,现在的问题是:这种实现是否除了随机移动直到走上成功之路之外还做了其他事情?

在您的示例中,您谈论的是当代理商到达目标时对其进行奖励。但是按照我的描述,它通过接近目标(通过Q函数或直接从环境中)而获得了回报。它可以通过学习距离的抽象概念来实现(可以在受监管的版本中进行说明)。

当人们了解到这一点时,这是出于相同的确切原因:通过获得未来的回报感,人类朝着这个方向前进已经获得了回报。

我想说,只要有足够的培训和数据,强化学习就可以轻松地学习这个概念。至于董事会中存在的其他奖励(例如,“最小化董事会的熵并尝试获得奖励”),则需要考虑您要问的是什么。您希望代理人将距离最小化还是将报酬最大化?因为,一般来说,两者不能兼而有之。如果您正在两者之间寻求某种平衡,那么实际上您只是在重新定义奖励以考虑距离。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.