无需人工数据库的AlphaGo(以及其他使用强化学习的游戏程序)


13

我不是该主题的专家,我的问题可能很幼稚。它源于一篇文章,旨在了解AlphaGo计划中使用的强化学习的功能和局限性。

AlphaGo程序的构建除其他外(蒙特卡洛对树木的探索等),是从庞大的人类围棋游戏数据库中训练出来的神经网络,然后通过发布其版本来增强神经网络。多次针对自己进行编程。

现在我不知道会发生什么事情,我们试图建立一个没有人类数据库的程序,即从Go的基本程序开始,只知道规则和一些探索树木的方法,然后与自己竞争以改善其神经网络。经过多次对抗之后,我们会达成一个能够与最优秀的人类选手竞争或击败的程序吗?如果是这样,那么需要多少游戏(数量级)?还是相反,这样的程序会融合到更弱的玩家身上吗?

我认为尚未进行实验,因为AlphaGo太新了。但是,答案可能对专家来说是显而易见的。否则,任何有根据的猜测都会使我感兴趣。

对于“简单”游戏,也可以问同样的问题。如果我们使用与AlphaGo大致相同的强化学习技术,但不使用人类数据库,则对于Chess程序,我们最终会获得一个能够击败最优秀的人的程序吗?如果是这样,速度有多快?已经尝试过了吗?或者,如果不是国际象棋,跳棋,或更简单的游戏呢?

非常感谢。

Answers:


10

我不是专家,但AlphaGo Zero似乎回答了您的问题。 https://deepmind.com/blog/alphago-zero-learning-scratch/

早期版本的AlphaGo最初接受了数千种人类业余和专业游戏的培训,以学习如何玩Go。AlphaGo Zero跳过了这一步,从完全随机的游戏开始,通过与自己对战来学习游戏。这样一来,它很快就超越了人类的游戏水平,并以100场比赛战胜0场击败了先前发布的击败冠军的AlphaGo版本。


这是最近的吗?
kosmos

1
该版本于2017
。– ncasas

知道针对人类的结果将会很有趣。因为预训练的人类数据库的一个原因是针对人类对手改进MCTS算法。原始的AlphaGo经过优化,可以与人类(而非其他ML)进行比赛。因此,很难说AlphaGo Zero是否比原始的AlphaGo严格“更好”,还是仅在博弈论意义上称霸它-例如,AlphaGo Zero击败AlphaGo击败Lee Sedol击败AlphaGo Zero。。。
尼尔·斯莱特

4
尼尔,是的,这很有趣。但是我不会打赌人类对Alpha的机会是零。
乔尔(Joël)

1

9

有人向AlphaGo论文的作者问了同样的问题,他的回答是,我们不知道如果AlphaGo从头开始学习(他们尚未测试)会怎样。

但是,鉴于游戏的复杂性,在没有先验知识的情况下从头开始训练算法将是一项艰巨的任务。因此,在开始时就可以通过使用人类获得的知识将其升级到硕士级别来开始构建这样的系统,这是合理的。

值得注意的是,尽管人类的动作在树节点(状态)处偏向于动作选择,但该先验具有衰减因子。这意味着增加对特定状态的访问,降低了鼓励算法探索的先验强度。

目前对AlphaGo的掌握水平尚不清楚与人类的演奏方式有多远(在锦标赛中,人类几乎没有发生任何动作的几步动作!-但同样也有一些非常差劲的动作) 。通过实际实现相应的测试算法,可能仍然需要回答所有这些问题。

由于DeepMind最新论文可以回答您的问题,因此我需要编辑我的答案。从第一版AlphaGo的整个先前经验中可以得出很多进步,这确实值得一读。


欢迎您:)
君士坦丁堡州

8

据我了解的AlphaGo算法,它基于一个简单的强化学习(RL)框架,使用蒙特卡洛树搜索来选择最佳动作。最重要的是,RL算法所涵盖的状态和动作不仅是游戏的整个可能配置(Go的复杂性很高),而且还基于从真实游戏中学习到的策略网络和价值网络。通过玩AlphaGo vs AlphaGo游戏得到了改善。

然后我们可能想知道,来自真实游戏的训练仅仅是节省时间的捷径还是获得这种效率的必要选择。我猜没有人真的知道答案,但是我们可以陈述一些假设。首先,人类促进良好动作的能力是由于智能比简单的神经网络复杂得多。对于棋盘游戏,它是记忆,经验,逻辑和感觉之间的混合体。在这个方向上,我不确定AlphaGo算法是否可以构建这样的模型,而无需明确探索Go游戏整个配置的很大一部分(实际上是不可能的)。当前的研究集中在构建此类游戏的更复杂表示上,例如关系RL或归纳逻辑学习。然后,对于简单的游戏(国际象棋可能就是这种情况,但不能肯定),

仍然只是一个意见。但是,我很确定,回答您问题的关键在于RL方法,该方法如今在知识方面仍然非常简单。我们并不能真正确定是什么使我们能够处理这些游戏,找到直到击败人类的最好方法是粗略地向他学习,并通过大量的计算来改进(一点)所学的模型。


1

无需人工数据库就能进行竞争性的自我演奏,即使是在复杂的,部分观察到的环境中也可以。OpenAI专注于这个方向。根据这篇文章

自我玩耍确保环境始终是AI改善的正确选择。

这是成功自我发挥的重要原因。

OpenAI在2017年8月11日的Dota 2 1v1中取得了超人的成绩,在标准比赛规则下以2-0 击败了Dendi

该机器人通过自我玩法从头开始学习游戏,没有使用模仿学习或树形搜索。这是朝着构建AI系统迈出的一步,该AI系统可以在涉及真实人类的混乱复杂情况下实现明确的目标。

不只是游戏,这个方向对于机器人工作也很有前途。

我们发现,自我比赛使模拟的AI能够发现物理技能,例如球的接球,躲避,伪造,踢,接球和跳水,而无需明确设计要考虑这些技能的环境。

在下一步中,他们扩展了方法以学习如何合作,竞争和沟通,而不仅限于自我玩法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.