我不是该主题的专家,我的问题可能很幼稚。它源于一篇文章,旨在了解AlphaGo计划中使用的强化学习的功能和局限性。
AlphaGo程序的构建除其他外(蒙特卡洛对树木的探索等),是从庞大的人类围棋游戏数据库中训练出来的神经网络,然后通过发布其版本来增强神经网络。多次针对自己进行编程。
现在我不知道会发生什么事情,我们试图建立一个没有人类数据库的程序,即从Go的基本程序开始,只知道规则和一些探索树木的方法,然后与自己竞争以改善其神经网络。经过多次对抗之后,我们会达成一个能够与最优秀的人类选手竞争或击败的程序吗?如果是这样,那么需要多少游戏(数量级)?还是相反,这样的程序会融合到更弱的玩家身上吗?
我认为尚未进行实验,因为AlphaGo太新了。但是,答案可能对专家来说是显而易见的。否则,任何有根据的猜测都会使我感兴趣。
对于“简单”游戏,也可以问同样的问题。如果我们使用与AlphaGo大致相同的强化学习技术,但不使用人类数据库,则对于Chess程序,我们最终会获得一个能够击败最优秀的人的程序吗?如果是这样,速度有多快?已经尝试过了吗?或者,如果不是国际象棋,跳棋,或更简单的游戏呢?
非常感谢。