一种新的AI胜出。类似的AI可以在国际象棋上获胜吗?它可以实现纯粹的自我训练吗?


19

在此站点上最受欢迎的问题之一是关于纯粹自我训练的国际象棋AI的前景

如今,ChessBase分散了对FIDE候选锦标赛的关注,报告说一种新的AI首次击败了颇具挑战性的围棋游戏的领先者,该棋已经抗拒了象棋风格的AI多年。该报告的初步阅读表明,新型围棋AI与国际象棋AI不同,但更像是通用游戏(GGP)AI。但是,ChessBase的文章并未使用GGP术语,而是似乎说go AI可以在简单的视频游戏中获胜。

这样的获胜围棋AI稍加调整就无法在国际象棋上获胜吗?如果是这样,那么这样的AI是否显示出有望实现纯自我训练的能力,而对于早期问题的几个出色答案早已在前面进行了讨论,而当时还不可能呢?为什么或者为什么不?

我怀疑还没有关于我的问题的真正完整,全面的答案,因此,即使是基于相关专业知识的部分答案也将不胜感激。

有关其他参考,请参阅此相关问题和解答。

更新

当上述问题在五天前首次发布并给出以下一些好的答案时,有关go AI获胜的第一则新闻刚刚出现。从那时起,出现了更多的信息和评论。

自那以来,特别有趣的是一个颇具可读性的五边圆桌讨论,其中乔纳森·舍弗(Jonathan Schaeffer)表示:

从人机游戏中学习有助于加速程序的学习。AlphaGo可以学会自己成为强大的玩家,而无需使用人工游戏。学习过程将花费更长的时间。

根据圆桌会议的主持人,谢弗是“阿尔伯塔大学计算机科学教授和解决跳棋者”。因此,大概他可能有资格发表评论。

有关更多信息,请参见以下公开讨论的记录,其中许多参与者似乎比往常更了解情况。讨论在比赛期间进行。

一年半后的进一步更新:评论者@MarkS。写道:

这只是一条评论,因为它是关于围棋而不是国际象棋的,但是AlphaGo Zero仅仅通过被告知谁获胜(而不是最终比分)而获得了“纯粹的自我训练”,并且比击败Lee Sedol的AI更强大,效率更高。 。有关更多信息,请参见deepmind.com/blog/alphago-zero-learning-scratch


我建议您在更多技术论坛上提问。人工智能是一个复杂的话题,应该具备丰富的专业知识来理解它。在这里查看答案,我不确定您是否会得到一个合理的答案。
萨尔瓦多·达利

5
给出的答案非常感谢。我已经投票了不止一个。如果我还没有接受,这不是对答案的批评,而是对这个问题如此艰巨,话题如此新颖的认识,以至于尚无法接受可接受的答案。让我们将这个问题搁置一段时间,看看一段时间后今天以后没有可用的答案。谢谢。
thb

1
这只是一条评论,因为它是关于围棋而不是国际象棋的,但是AlphaGo Zero仅仅通过被告知谁获胜(而不是最终比分)而获得了“纯粹的自我训练”,并且比击败Lee Sedol的AI更强大,效率更高。 。有关更多信息,请参见deepmind.com/blog/alphago-zero-learning-scratch
Mark

1
@thb我认为AlphaZero就是这样的AI。
哈里·韦斯莱

1
截至2017年12月,AlphaZero仅根据arxiv.org/pdf/1712.01815.pdf游戏规则自学了国际象棋风格,并令人信服地辞退了StockFish。
Saille

Answers:


14

好吧,好吧!DeepMind发表了一篇论文,他们说他们已经对神经网络计算机进行了编程和培训,以击败Stockfish。

每步动作有1分钟的思考时间,他们的AlphaZero计算机将Stockfish击败了+ 25,= 25,-0(白色)和+ 3,= 47,0-(黑色)。

他们“训练”了三台单独的计算机,以下象棋,将棋和围棋,并令人信服地击败了他们的硅对手。

本文是如何描述培训和评估的-

通过使用该神经网络的最新参数来生成自玩游戏,从而省去了评估步骤和最佳玩家的选择。

AlphaGo Zero通过贝叶斯优化优化了其搜索的超参数。在AlphaZero中,我们为所有游戏重用了相同的超参数,而没有特定于游戏的调整。唯一的例外是为确保勘探而添加到先前策略中的噪音;该比例与该游戏类型的合法移动次数成比例。

像AlphaGo Zero一样,棋盘状态仅根据每个游戏的基本规则由空间平面编码。同样,仅根据每个游戏的基本规则,动作由空间平面或平面矢量编码(请参见方法)。

我们将AlphaZero算法应用于国际象棋,将棋和围棋。除非另有说明,否则所有三款游戏均使用相同的算法设置,网络架构和超参数。我们为每个游戏训练了一个单独的AlphaZero实例。训练从随机初始化的参数开始,进行了700,000步(大小为4,096的迷你批次),使用5,000个第一代TPU生成自玩游戏,使用64个第二代TPU训练神经网络。方法中提供了培训程序的更多详细信息。

图1以Elo量表(10)显示了AlphaZero在自我学习强化学习过程中作为训练步骤的功能。在国际象棋中,仅4小时(30万步)的AlphaZero跑赢了Stockfish。在Shogi中,不到2小时(110k步)的AlphaZero跑赢了Elmo;而在Go中,经过8小时(16.5万步),AlphaZero的表现优于AlphaGo Lee(29)。

我们分别在国际象棋,将棋和围棋中评估了经过完全训练的AlphaZero对抗Stockfish,Elmo和早期版本的AlphaGo Zero(经过3天训练)的实例,在锦标赛时间控制下进行100场比赛,每步1分钟。AlphaZero和以前的AlphaGo Zero使用一台带有4个TPU的机器。Stockfish和Elmo使用64个线程和1GB的哈希值发挥了他们最强的技能水平。AlphaZero令人信服地击败了所有对手,败给了Stockfish零场比赛,输给了Elmo八场比赛(参见一些示例游戏的补充材料),还击败了先前版本的AlphaGo Zero(见表1)。

他们的计算机使用了一种新型的芯片,称为Google研发的“ TPU”(张量处理单元),用于机器学习任务。

他们还声称,他们的蒙特卡洛树搜索算法比传统的alpha-beta搜索算法更好,更像“人类”。

与Stockfish和Elmo使用的最新alpha-beta搜索引擎相比,我们还分析了AlphaZero MCTS搜索的相对性能。AlphaZero每秒仅搜索国际象棋8万个职位,将棋每秒40,000个职位,相比之下,Stockfish为7,000万个,Elmo为3500万个。AlphaZero通过使用其深度神经网络更加有选择地专注于最有希望的变化,从而弥补了评估数量的减少-可以说是一种更“类似于人的”搜索方法,如Shannon最初提出的那样。图2显示了相对于思考时间为40毫秒的Stockfish或Elmo,每个玩家相对于思考时间的可扩展性,以Elo尺度衡量。与Stockfish或Elmo相比,AlphaZero的MCTS在思考时间上的扩展更有效,

这是一些游戏-

干鱼-AlphaZero,0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 O-O 8. Qe1 f6 9. Nc4 Rf7 10. a4 Bf8 11. Kh1 Nc5 12. a5 Ne6 13。 Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22.Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26. Nxa5 BA6 27. Bxd4 RXD4 28. NC4 RD8 29. G3 H6 30. QA5 BC8 31. Qxc7 BH3 32.皂苷Rg1 RD7 33. QE5 Qxe5 34. Nxe5 RA7 35. NC4 G5 36.器Rc1 BG7 37。 NE5 Ra8显 38. NF3 Bb2即 39.皂苷Rb1 BC3 40.馆1 BD7 41. Ne2的 这个Bd2 42.器Rd1 BE3 43. KG2 BG4 44.部Re1 这个Bd2 45.器Rf1 Ra2的 46. H3 Bxe2 47. RF2 Bxf4 48. Rxe2 Be5 49. Rf2 Kg7 50. g4 Bd4 51. Re2 Kf6 52. e5 + Bxe5 53. Kf3 Ra1 54. Rf2 Re1 55. Kg2 + Bf4 56. c3 Rc1 57. d4 Rxc3 58. dxc5 Rxc5 59. b4 Rc3 60. h4 Ke5 61 。hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

游戏

干鱼-AlphaZero,0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. c3 O-O 8. d4 Bd6 9. Bg5 Qe8 10. Re1 f6 11. Bh4 Qf7 12. Nbd2 a5 13。 BG3 RE8 14. QC2 NF8 15. C4 C5 16 D5 B6 17. NH4 G6 18. Nhf3 BD7 19. RAD1 RE7 20. H3 Qg7 21. QC3 Rae8 22. A3 H6 23. BH4 RF7 24. BG3 Rfe7 25. Bh4 Rf7 26. Bg3 a4 27. Kh1 Rfe7 28. Bh4 Rf7 29. Bg3 Rfe7 30. Bh4 g5 31. Bg3 Ng6 32. Nf1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37。 ND2 Qh7 38. KG1 BF8 39. NB1 ND6 40. NC3 BH6 41.器Rf1 Ra8显 42. KH2 KF8 43. KG1 QG6 44. F4 gxf3 45. RXF3 Bxe3 + 46 Rfxe3 Ke7 47.量Be1 Qh7 48.皂苷Rg3 RG7 49. Rxg7 + Qxg7 50. e3中 RG8 51.皂苷Rg3 Qh8 52. NB1 Rxg3 53. Bxg3 Qh6 54. ND2 BG4 55. KH2 KD7 56. B3 axb3 57. Nxb3 QG6 58. ND2 满足Bd1 59. NF3 BA4 60. ND2 Ke7 61 。Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. a4 Nb7 65. Nb1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Nc3 c6 69. Kg1 cxd5 70. exd5 Bf5 71. Kf2 Nd6 72. BE3 NE4 + 73. Nxe4 Bxe4 74. A5 bxa5 75. Bxc5 + KD7 76. D6 BF5 77. BA3 KC-6 78.科1 KD5 79. KD2 KE4 80. Bb2即 KF4 81. BC1 KG3 82. KE2 A4 83. KF1 Kxh4 84。 Kf2 Kg4 85. Ba3 Bd7 86. Bc1 Kf5 87. Ke3 Ke6 0-1

白色:AlphaZero黑色:干鱼

AlphaZero-干鱼,1-0
1. Nf3 Nf6 2. c4 b6 3. d4 e6 4. g3 Ba6 5. Qc2 c5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. e4 g6 13。 QF4 O-O 14 E5 NH5 15. QG4 RE8 16. NC3 QB8 17. ND5 BF8 18. BF4 QC8 19. H3 NE7 20. NE3 BC6 21. RD6 NG7 22. RF6 QB7 23. BH6 ND5 24. Nxd5 Bxd5 25. Rd1 Ne6 26. Bxf8 Rxf8 27. Qh4 Bc6 28. Qh6 Rae8 29. Rd6 Bxf3 30. Bxf3 Qa6 31. h4 Qa5 32. Rd1 c4 33. Rd5 Qe1 + 34. Kg2 c3 35. bxc3 Qxc3 36. h5 Re7 37。 BD1 QE1 38. BB3 RD8 39. RF3 QE4 40. QD2 QG4 41. BD1 QE4 42. H6 NC7 43. RD6 NE6 44. BB3 Qxe5 45. RD5 Qh8 46. QB4 NC5 47. Rxc5 bxc5 48. Qh4 Rde8 49. RF6 RF8 50. QF4 A5 51. G4 D5 52. Bxd5 RD7 53. BC4 a4中 54 G5 A3 55. QF3 RC7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. QD3 RF8 59. QD6 Rfc8 60. A4 1- 0

只是读报纸。真的很棒。当然,这并不意味着您无法使用结合AlphaZero的传统技术来构建更强大的功能,但仍然...
BlindKungFuMaster

10

好吧,我必须承认我错了。尽管我会坚持认为这是由于专家的见识,而不是普遍的晦涩:引用本文:“但是,使用传统MCTS的国际象棋程序要比alpha-beta搜索程序弱得多,(4,24);而alpha基于神经网络的-beta程序以前无法与更快的手工评估功能竞争。”

显然,国际象棋在战略上足够深入,可以使某人制定战略,而该人能够胜任。对我来说,这是一个很大的惊喜,因为国际象棋引擎的发展方向相反。(关于AlphaZero是否真的比Stockfish更强,显然还有一些警告:Stockfish仅使用1GB的哈希表和64个内核玩游戏,实际上可能并不适合四个TPU)

这也是一件非常非常令人兴奋的事情,因为AlphaZero很可能具有与传统引擎不同的优势。

这也意味着我更加相信AlphaGo作为技术突破的重要性。基本上,只需一次设置就可以击杀将棋,围棋和国际象棋,这是绝对令人惊讶的,更不用说AlphaZero可能以超人水平玩过的数十种其他游戏。

关于为何MCTS甚至对于国际象棋而言,与alpha-beta搜索相比都是一个不错的主意,有一个很好的解释(摘自本文):“ AlphaZero使用基于深度神经网络的非线性函数逼近而不是线性函数来评估位置典型的国际象棋程序中使用的函数逼近,这提供了更强大的表示形式,但也可能引入虚假的逼近误差,MCTS对这些逼近误差取平均值,因此在评估大型子树时趋向于抵消。计算一个显式的极大极小值,它将最大的近似误差传播到子树的根。” (我强调)

这是我的旧答案,尽管结论已被现实所取代,但仍包含一些有效观点。

首先,Alphago不是通用的游戏系统。这是一个纯粹用来玩围棋的程序。但是,它是由某些具有更广泛适用性的构建基构建而成的,例如卷积神经网络(已用于图像识别并且已立即应用于医学诊断中)以及用于学习 Atari游戏中提到的Atari游戏的强化学习。文章。

另外,当前的引擎通过自我玩耍来“学习”:“一夜之间,莱夫勒的六台计算机在八个小时的时间内分别玩了14,000多个游戏。“六台机器乘以14,000个游戏就是很多游戏,”他说。每玩一场游戏,数据库就会变得越来越丰富。观看计算机相互对战甚至引起了体育运动的兴趣。莱夫勒忙碌的打machines机器的结果就是科莫多的实力越来越强。”

提出大部分问题:

至少从程序员的角度来看,国际象棋和围棋之间存在重要区别。国际象棋更像是战术游戏,而围棋更像是战略游戏。这意味着在象棋计算中深度胜过位置评估。从根本上讲,这是区分“旧”引擎(例如Fritz,Shredder,Junior和较新一代)(例如Fruit,Rybka,Houdini,Stockfish和Komodo)的关键见解。因为在每一行的末尾,您都必须评估位置,并且要计算很多行,并且评估的质量并不像搜索深度那么重要,所以象棋引擎具有精简和快速的评估功能。

另一方面,即使对于计算机,战术复杂性也太大。因此,准确评估位置和移动是关键。Alphago给游戏带来的新功能就是这种评估能力,它基于卷积神经网络

最终得出我的观点:国际象棋评估功能既精简又快速,而神经网络则具有数百万甚至数十亿个参数。因为在这种情况下,“学习”意味着需要调整参数,所以自学go程序还有更多的可能进展。

因此,是的,您可以使用Alphago这样的设置来创建国际象棋引擎,但这并不是特别好。运行评估功能将花费大量时间,以至于您必须利用大量的GPU来达到必要的搜索深度(Alphago就是这样做的)。您可以创建一个非常好的评估函数,但是速度的权衡是不值得的。


1
我不同意您的看法,您可以使用类似Alphago的设置来创建国际象棋引擎,但这并不是特别好。我可以打赌,在不到一年的时间内,将有一个非常依赖NN的国际象棋引擎(它很可能会进行树搜索和蒙特卡洛,但这并不重要),这将接近最先进的干鱼。而且,该引擎并非源自超级公司(因为很久以前人工智能研究者就不再对国际象棋产生兴趣了),而是源自一个强大的嗜好者。
萨尔瓦多·达利

蒙特卡洛在国际象棋中完全没有用。尽管NN并非没有用,但它们却太慢了。
BlindKungFuMaster

3
为什么MCTS完全没用?从当前的棋盘位置开始运行,在节点深度为5的情况下运行1000局游戏,看看哪个节点有更好的机会是很有意义的。这与您所做的非常相似,当您查看数据库中的移动统计信息时,发现在14之后,Kg4白色赢得25%,而在14 Rb2中白色赢得45%。你有完全没有用的短语的证明吗?
萨尔瓦多·达利

2
MCTS不是关于随机性,而是关于仿真。有关MC的基础入门书籍向您展示了一个随机性示例,仅用于说明要点。您可以使用6的节点深度多次播放清晰的位置,这是非常快的(并且仍然非常可靠),并且可以让您大致估计出哪个移动更好。
萨尔瓦多·达利

1
我的发言不是大胆的,而是主流。只需阅读一些国际象棋编程网站,您就会发现或多或少的我的观点。MCTS已经有十多年的历史了,在国际象棋中,其他东西效果更好。另一方面,我认为您的陈述仅基于直觉,所以这是我的最后评论。
BlindKungFuMaster

5

有一个名为spawkfish的项目试图做到这一点。它是一个基于神经网络的引擎,其目的是“探索如何将计算机Go的最新进展应用于计算机国际象棋世界”。

这是一个年轻的项目,引擎仍然很弱。玩它很有趣,因为它的位置表现比其战术要好。


2
你不是在跟那最后一句话开玩笑。我刚刚和它玩了几场比赛,每个人都进入了相当水平的残局,只是看到see鱼突然掉了东西(在一种情况下,只是把白嘴鸦挂在了什么地方)。奇怪。
ETD

自从您回答以来,似乎已经出现了有关go AI的新信息。如果您对此感兴趣,我已经更新了问题以链接到新闻。
thb

spawkfish的网站似乎已经消失了……
hkBst

4

类似的AI可以在国际象棋上获胜吗?它可以实现纯粹的自我训练吗?

最简洁的答案是不!”

国际象棋和围棋的相对简单性和相对复杂性从根本上不同,这源于它们的几何形状和获胜方式。这些结合在一起构成了一个程序,该程序擅长于另一程序无用。

在国际象棋中,通过对对手进行格斗而获胜,积分不计算在内。当然,明智的对手通常会在送交将军之前辞职,但原理是相同的。在进行中,您可以在游戏结束时获得更多积分,从而赢得胜利。如果我有一个国王和王后,而您有一个国王,白嘴鸦和典当,但您建立了一座堡垒,那么我为女王/王后砍下9分而您的白嘴鸦和当兵只有6分也没关系。游戏是平局。

这使国际象棋与围棋之间的复杂性发生了根本性的区别。在进行中,您只要保持得分就可以知道谁在赢球。在国际象棋中,您唯一知道获胜者的方法就是纯粹的计算。从这个意义上说,国际象棋比走棋要复杂得多。

同时,由于这两种游戏的几何形状,棋类比棋类游戏具有更多的数量级可能性。从这个意义上讲,围棋比象棋复杂得多。

一个国际象棋程序通过蛮力计算工作,直到达到确定其强度的特定深度为止。Go程序不能像这样工作,并且不能播放比初学者更高级的任何内容。

前进的基本目的是控制比对手更多的领土。在游戏结束时,差值是1石头还是100石头都无所谓,都是胜利。每次放置石头时,您都会做两件事。您增加了自己的领土,无论是潜在领土还是实际领土,都减少了对手的领土。

有时,当实际增加或减少领土时,很容易计算出移动的价值,但是当有潜力时,则很难评估。作为一名弱势棋手,我对“实际”的理解要比对“潜力”的要好得多,而更强壮的玩家会通过在中心位置建立更大的潜在区域来击败我,而在边缘和角落建立更小的实际区域。实力较强的玩家将具有通过直觉进行判断的能力,并可以从玩很多游戏以及识别如何构建“潜在”领域中获得感觉。

之前我说过,每当我放一块石头时,它都会增加我的领土(实际或潜在),并减小我对手的领土(实际上,如果这是一个愚蠢的举动,反而会相反!)。在任何给定位置,并非所有动作都是相同的。放在一个位置的石头比放在另一个位置的石头价值更高或更少。

通常,在游戏中会进行一些小的“战斗”,玩家将石头彼此靠近,划定自己的领土并限制对手的领土。同时,有可能开始在棋盘的另一部分争夺地盘,或切换到双方都已经拥有石头的其他地方进行战斗。

在这些情况下,非常重要的是知道何时停止一场战斗,因为潜在的收益已经减少,并且要么转而进行另一场战斗,要么打进处女地。有时这取决于硬计算,但通常更加含糊且不受计算。作为弱者,这是强者每次都会压垮我的地方。

在这些情况下,计算机的工作是使用概率方法为特定动作生成预期分数。有时,实际值会减少一些,有时会增加一些,但从长远来看,它甚至会有所减少。它将继续选择最高期望值的棋步,并期望在游戏的长期过程中,小错误将被抵消,并且其策略将获胜。

这不是棋手听起来很熟悉的策略,也不是将要在国际象棋中起作用的策略。对于那些跟随股票市场动态的人来说,这听起来似乎很熟悉。这听起来与所谓的“高频交易”非常相似,在这种情况下,计算机将每秒进行数千次小额下注,或者只是每秒提议的下注,以“轻而易举地”占领市场,甚至可能在几毫秒内将其微幅移动以利好他们。

金融市场已经被这类算法交易所支配,这表明这类程序已经在比棋盘游戏更有利可图的领域取得了胜利。


4
高频交易就像玩游戏。完全不同的算法。此外,您的答案中还有很多有趣的内容,但是很难理解要点,也许要添加TL; DR。;-)
BlindKungFuMaster

@BlindKungFuMaster HFT和AlphaGo背后的基本原理是一种概率性原理。此“移动”的预期收益为x%。从长远来看,这种动作/下注的积累将为AlphaGo赢得比赛或为HFT交易者发大财。然而,时不时会有李世-发生“闪崩”或“奇异举动”,这将使赢/获利变为亏损。这绝不会使其编程无效。没有编程为每次都能找到绝对的最佳移动。这有点像旅行商问题的伪解决方案,尝试将最佳情况控制在5%以内。
Brian Towers

自从您回答以来,似乎已经出现了有关go AI的新信息。如果您对此感兴趣,我已经更新了问题以链接到新闻。
16th

1
@thb,我相信鉴于AlphaZero的新成功,这个答案现在已经过时了,例如arxiv.org/abs/1712.01815
Mark S.

@请问为什么?不要以自己的浅薄标准来评判别人。
布赖恩塔

4

(任何想对AlphaGo进行深入技术讨论的人都可以看一下我的文章

简短答案:否

长答案

首先,我们需要了解Google为何未在AlphaGo中实现alpha-beta。Stockfish和Komodo(以及所有象棋引擎)都具有alpha-beta,为什么AlphaGo不?

原因:没有简单,便宜的方法可以静态准确地评估Go位置。

在国际象棋中,我们始终可以对材料进行计数,这是一种静态评估位置的非常有效的方法。尽管不完美,但是它非常快速,并且非常适合国际象棋。

使用Monte-Carlo搜索状态空间是次于 alpha-beta的方法。如果可以的话,Google会实施alpha-beta,但不会。因此,他们被迫使用慢得多的东西。

国际象棋引擎在蒙特卡洛比赛中表现不佳。


是时候重新考虑了,或者也许还没有呢?
Evargalo

3

我不同意其他答案。我是从事人工智能领域专业工作的计算机科学家,也是国际象棋和igo 3 dan的候选大师。

我认为目前尚不清楚Deep Mind的方法是否可以应用于国际象棋,但我认为这是可能的。

当前,顶级的国际象棋比赛程序越来越依赖于启发式技术,并且在某种程度上尝试将AlphaGo架构用于国际象棋。

必须更改的AlphaGo的一项关键体系结构特征是其识别关键正方形(或热图)的方法,这是针对igo的游戏所特有的,不适用于国际象棋。为了使AlphaGo架构与国际象棋相关,必须开发这种方法的一些类似物。例如,我们可能有“关键部分”的概念,而不是关键正方形。

我认为关于AlphaGo体系结构与国际象棋不相关的论点并不是一个很好的主张,因为最终两者都具有形状相似的搜索树,以至于AlphaGo肯定可以适应国际象棋。


我给您+1的信息,因为您的主张可能是正确的,但直到有人发表论文,我们才能确定。
SmallChess

嗯 正如Brian Towers指出的那样,该文件已经存在。答案是肯定的。
热磁凝聚玻色子

看来我是对的,呵呵。
Cecil De Vere

@CecilDeVere并不不同意其他答案,其中两个指出了正确答案。而不是说目前尚不清楚,尽管很明显该答案是肯定的(可能不是)。
热磁凝聚玻色子

3

答案是肯定的!谷歌昨天证明了这一点,当时AlphaZero仅使用有关规则的知识并进行了纯粹的自我训练,而没有使用过任何国际象棋知识就击败了最好的象棋程序。接受的答案是错误的。这篇文章的链接在这里:链接


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.