Answers:
好问题!NN对于此类问题非常有前途:长颈鹿国际象棋。赖的成就被认为是一个很大的成就,但不幸的是,在AlphaGo成为焦点之前仅几个月。(事实证明一切都很好,尽管后来赖先生被DeepMind聘用,尽管对于长颈鹿引擎而言不是很好;)
我发现赖的方法非常有帮助,并且得到了可靠的结果的支持。
您可能需要使用“ 顺序 ”而不是“基于回合”,因为顺序是博弈论和组合博弈论中的首选术语,而这是将数学分析应用于游戏的领域。
您列出的游戏又被称为“ 抽象 ”游戏,以区别于现代战略桌面游戏或一般游戏,后者具有很强的主题,并且在机制和元素方面通常不如抽象游戏紧凑。这就警告了抽象游戏不限于连续游戏,棋盘游戏,甚至不限于特定游戏,例如Sudoku之类的谜题。
这组游戏的正式名称通常是“ 游击性,顺序性,确定性,完美信息 ”,井字游戏的进一步分类为“琐碎的”(已解决且易于解决)和“琐碎的”(难于解决)象棋和围棋之类的游戏。
我是一名国际象棋棋手,而我的答案只会是在国际象棋上。
通过强化学习来训练中性网络并不是什么新鲜事,这在文献中已经做过很多次了。
我将简要解释常见策略。
网络的目的是学习位置评估。我们都知道皇后比主教强,但是我们可以在不进行显式编程的情况下使网络知道吗?那典当的结构呢?网络是否了解如何评估职位是否获胜?
现在,我们知道了为什么需要网络,我们需要对其进行设计。研究之间的设计存在根本差异。在深度学习流行之前,人们正在使用浅层网络。如今,具有许多层的网络脱颖而出。
一旦有了网络,您将需要制作一个国际象棋引擎。神经网络本身不能神奇地下象棋,它需要连接到象棋引擎。幸运的是,我们不需要编写位置评估代码,因为网络可以为我们做到这一点。
现在,我们必须玩游戏。我们可以从一些高质量的国际象棋数据库开始,或者让我们的AI代理与其他玩家(例如,自己,另一个AI代理或人类)玩游戏。这就是所谓的强化学习。
在玩游戏时,我们会更新网络参数。这可以通过随机梯度下降(或其他类似技术)来完成。只要需要,我们就会重复训练,通常需要进行数百万次迭代。
最后,我们有一个受训的国际象棋中性网络模型!
请查看以下资源以获取详细信息: