问题空间太大时AI如何学会采取行动


10

我通过实验和榜样学习得最好。我正在学习神经网络,对(我认为)对分类和回归以及对监督和无监督的学习有很好的理解,但是我偶然发现了一些我无法安静解决的问题。

如果我想训练AI玩复杂的游戏;我在想类似RTS的东西(例如帝国时代,帝国地球等)。在这些类型的游戏中,通常存在许多由玩家控制的实体(单位,建筑物),每个实体具有不同的功能。AI的问题似乎是分类(例如,选择该单位和该动作),但是由于单位数量是变量,因此人们如何以这种方式处理分类问题?

我唯一能想到的是多个网络处于不同的阶段(一个用于整体策略,一个用于控制这种类型的单元,一个用于那种类型的建筑物,等等);但这似乎使问题变得复杂。

有没有很好的例子说明机器学习/神经网络学习复杂的游戏(不是专门针对RTS,而是更复杂的Mario)?


“ RTS AI:问题和技术”,webdocs.cs.ualberta.ca
〜cdavid / pdf /


Answers:


4

这是一个很好的问题,世界各地的许多科学家都在问同样的问题。好吧,首先,《帝国时代》这样的游戏并没有被认为拥有很大的解决方案空间,没有那么多事情可以做。在像Mario Bros这样的游戏中也是如此。在像Atari这样的简单游戏中学习的问题是由DeepMind的人(在此为本文)解决的,该人被Google收购。他们使用了强化学习和深度学习的实现。

回到您的问题。一个非常大的问题是如何模仿人类每天要做的决定。醒来,吃早餐,洗个澡,离开家...所有这些动作都需要非常高的智力和许多动作才能发展。

有很多人在解决这个问题,我就是其中之一。我不知道解决方案,但是我可以告诉您我正在寻找哪种方式。我遵循Marvin Minsky的理论,他是AI的父亲之一。这本书《情感机器》很好地说明了这个问题。他建议,创建模仿人类行为的机器的方法不是通过构建统一的紧凑型人工智能理论。相反,他认为我们的大脑包含相互竞争以同时满足不同目标的资源。他们称这种思考方式


1

好问题。这是一个复杂的问题,您使用的方法将取决于问题的复杂程度。我们试图解决的任何问题都将具有一定程度的复杂性,通俗地定义为“相互作用的事物的数量或需要考虑的事物”。在有监督和无监督的学习中,我们精确地指定了要考虑的事物的数量。

例如,在多元线性回归中,我们告诉学习算法拟合模型时要考虑多少个特征(训练集中的列数)。无监督学习也是如此。使用定义明确的训练集,其中包含明确的功能(在这种情况下,没有标签)。

您所面临的情况是不适合分类或回归的情况,因为您无法准确指定“要考虑的事物”的数量。如您所说,您的问题空间非常大。考虑这一点的另一种方法是学习模型所需的训练集。您想象训练集的外观有多难?在你的情况下很难。我的集合中的列到底包含什么?

这就是为什么自动驾驶汽车,Atari和AlphaGo之类的应用程序不使用分类或回归的原因。不可能知道训练集的外观。您可以尝试,但是您的模型将无法可靠地做出强有力的预测(在这种情况下为移动)。建立道路条件模型需要考虑多少事情?

这就是为什么存在第三种机器学习(强化学习)的原因。与其使用预先指定的训练集,不如使用反复试验。通过不断戳戳它的环境,它可以学习长期有效的政策。

因此,对于较小的问题空间,我们有机会定义训练集,因此我们使用有监督和无监督的机器学习。对于难以定义训练集的较大问题空间,我们使用强化学习。当然,您也可以对所有上述方法进行有趣的组合,但是仍然归结为复杂性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.