Alpha Zero如何“更人性化”?


35

我对AlphaZero有一个天真的问题。我已经看到它被描述为比其他计算机更“人性化”地玩耍,但是无论做什么,通过这样做它都能获得大约100个ELO积分。卡斯帕罗夫(Kasparov)和许多其他人都声称,与计算机协作的强大人员将击败一台强大的计算机(也许比大约100 ELO ??)。因此,一个显而易见的问题是,AlphaZero与“半人马”组合将如何比较?

仅看了几场比赛,我注意到大多数计算机都在玩开放式游戏,以最大限度地提高自己的机动性,但是AlphaZero似乎非常担心限制对手的机动性。在人类玩家中,我将其描述为风格问题,而不是或多或少的人类。


4
就其价值而言,卡斯帕罗夫(Kasparov)的说法已过时。人与计算机协作(“高级国际象棋”或“半人马象棋”)无法再胜过一台计算机了-计算机太好了-Stockfish 8的额定IIRC约为3400,而Magnus Carlsen约为2825。 。
Stephen Touset

8
@StephenTouset请小心使用Elo发动机等级。我最常看到的是来自引擎与引擎的比较,尚未将其标准化为真实的人。相关的维基百科引用:“这些等级与FIDE Elo等级或其他人类玩家的国际象棋联合会等级没有直接关系。除了SSDF多年前组织的某些人机对战游戏(到目前为止(从今天的水平来看),这些评级列表和球员池之间都没有校准。”
mbrig

1
我认为人类可以但不能采用标准的时间控制。长时间的对应游戏应该可以。
SmallChess

4
嗯,AlphaZero是Google的产品。因此,难怪您会比其他公司的产品听到更多的宣传。我想他们与作者和出版商有更好的交易。像一堆Waymo一样,放一堆盐。
coderworks

Answers:


33

本文第5页有您的答案:

... AlphaZero通过使用其深层神经网络来补偿最少量有希望的变化所需的评估次数的减少-可以说是一种更具“人性化”的国际象棋方法...

“选择性地”是关键词。这意味着什么?让我们在示例中使用以下位置:

https://chess24.com/cn/read/news/london-classic-5-caruana-shows-how-it-s-done

动作

这是Caruana在2017年伦敦国际象棋经典赛中获胜的最新游戏。白主教遭到攻击,您知道必须移动它。但是

可能性(不丢失部分):

  • Bh4
  • Be3
  • Bd2
  • Bc1

Caruana在想什么?

我觉得自己有时会输,但是当我看到25.Bc1时,我突然开始对自己的机会变得更加乐观。我意识到自己的职位很糟糕,但是至少我有一个计划,这实际上是我对这个职位充满信心所需要的。当我看到此b3,c4时,该位置是双刃的,所以我有一些机会。

这是人的思想,是“人的举动”。Caruana 并未考虑Bh4,Be3和Bd2,因为它们“看起来”不好。他一直专注对BC1举动。

人类非常有选择地下棋,我们没有合理的举动,因为我们没有时间平等地检查所有可能性。

  • 我们丢弃Bh4,因为它释放了h6棋子上的张力
  • 我们丢弃Be3,因为它阻止了第三等级的两个白嘴鸦
  • 我们丢弃Bd2,因为它阻止了白皇后到国王一方

这就是AlphaZero试图在论文中主张的。他们声称他们的算法虽然比Stockfish慢,但在搜索中能够选择性地选择比Stockfish 更好的招式。尽管Stockfish速度更快,但它浪费时间在错误的动作上。AlphaZero速度较慢,但​​更精确(如Caruana所做的那样)。

例如,AlphaZero可能在Bc1上花费了80%的资源,而在所有其他主教的举动上花费了20%。干鱼的举动可能会给每个动作25%(Bh4,Be3,Bd2,Bc1)。


1
因此,基本上,打法不一定是更人性化的,而是寻找下一步打法的方法。至少根据论文。此外,我无法对其进行编辑,但是您在Caruana语录中有一个很大的错字:“当我看到他的b3时,c4”应为“当我看到此b3时,c4”
Arthur

@Arthur根据该论文(并且只有该论文),游戏风格不一定更人性化。我并不是说不,但是论文中没有任何内容说明这一点。
SmallChess

蒙特卡洛算法有一个参数来控制explorer x exploit,因此alpha-beta永远不会考虑移动(由于时间),alpha zero不会考虑。
费尔南多

@Fernando您能解释一下您的回应吗?我很难理解这一点。我也对“从不考虑由于时间而感到困惑”。Alpha-beta搜索忽略的分支显然比其他已经探索的分支差。我不认为这与时间有什么关系。
IA彼得·哈拉西莫维奇

基本上,如果一行为+0.32,另一行为+0.13,则AlphaZero将花时间在前一行上。
Jossie Calderon

16

大多数强大的引擎都强调非常深入地查看,而牺牲了肤浅的评估功能。他们在AlphaZero论文中说,Stockfish每秒可看到7000万个职位。

与引擎相比,人类宗师实际上只看很少的职位,但他们会更好地感觉到谁在给定职位上更好。

AlphaZero每秒仅查看80,000个位置,因此它在评估功能上花费了更多时间。

那就是他们的意思,“更像人类”,仅此而已。


11

AlphaZero似乎已经像常规的“半人马”游戏->通用GM在引擎辅助下运行。

作为调频,我会更喜欢玩AlphaZero和普通引擎。

一个比较将是它像卡波夫一样运用完美的战术进行比赛。(第9场AlphaZero玩了15次动作,这很像Tal一样)。

不只是风格,AlphaZero给人的印象是比Stockfish更能理解职位。

到目前为止,AlphaZero还没有遭受所有象棋引擎遭受的“地平线效应”的影响。它一次又一次地能够正确地评估一个比斯托克菲什下降的位置。

这是一个例子:

AlphaZero-fish鱼,Alphazero vs fish鱼:AlphaZero-fish鱼,2017-12-05,1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13。 cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. RC7 RC8 26. RXC8 + Bxc8 27. RC6 BB7 28.器Rc2 KD7 29. NG5 BE7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. F5 RG8 33. Qh6 Qf7 34. F6 Kd8 35. KD2 KD7 36.器Rc1 Kd8 37。 Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero扮演国王居中16。Kxd2!在一个中间游戏中正确地判断出Black将无法利用它。

它能够正确评估一块牺牲30。Bxg6!而常规引擎无法看到它们因多次移动而丢失。

  1. f5也很不错。

还有其他示例,例如游戏3中的交换牺牲。


8

跳上潮流说Alpha-Zero的游戏比以前的计算机象棋程序“更具人性”,就像跳上相反的旅行车并说Alpha-Zero的游戏完全是“异形”一样。尚不清楚Alpha-zero的游戏是否“更人性化”,特别是考虑到我们人类倾向于拟人化的趋势。

国际象棋是(人类)思想的斗争

但是在国际象棋中这种趋势是真的吗?马格努斯·卡尔森(Magnus Carlsen)曾经谈到一般的“传统”计算机缺乏人类创造力的说法:

“国际象棋就是人与人之间的斗争。这就是令人兴奋的原因。计算机象棋是机械的,干燥的,平淡的。当然,动作非常强劲,但是没有风格。如果尝试与象棋计算机对战, ,不仅会非常肯定地失去您,而且您会在此过程中感到无聊。

马格努斯·卡尔森(Magnus Carlsen)在传统的象棋计算机中看不到人类玩法的证据。因此,让我们检查一下Alpha-Zero近期的成就是否消除了这种观点并使我们朝着更让我们联想到自己的方向前进。

如果用“类人”的意思是说“表现出更可能吸引我们拟人化的行为”,那么Alpha-zero的风格是否看起来更人性化?我们如何真正测试喜欢投射在非人类事物上的主观近视人类?让我们来问-算法在游戏风格上是“选择性地挑选更好的”还是表现出“更多的人类创造性选择”?

该算法的创建者表明,与使用Alpha-Beta搜索算法的Stockfish不同,Alpha-Zero采用了蒙特卡洛树搜索(MCTS)算法,该算法接受根据先前结果建立的加权参数θ〜第3页。将棋与一般强化学习算法的自玩游戏()。

因此,该算法根本不会表现出选择。它实际上是在进行随机但有概率的Monty-carlo搜索,其中可用的可能搜索路径越来越受以前的结果的影响。Alpha-zero是选择以这种方式优化游戏风格还是程序员的选择?

是Alpha-zero是否总是有所有可能的动作可供考虑,还是某些动作在算法上受到偏颇,从而模仿了人类可以拟人化的体验?

最初,它具有所有可用的动作,因此其“样式”完全是随机的。但是,随着搜索的进行越来越受到先前成功或失败的限制,它的风格实际上正在朝程序员束缚它的方式转变。这是“更人性化”的吗?与此相比,马格努斯·卡莱森(Magnus Carlesen)有时会选择不太理想的举动,因为它们更具创造力

马格努斯·卡尔森(Magnus Carlsen):“我欣赏创造独特的事物”

国际象棋作为(外来)思想的斗争

人们可以选择决定自己游戏风格的标准(例如,我经常选择自己风格的冲动和错误)。许多人在两次国际象棋中都看到了Alpha-zero的棋局,并且像Alien一样坚定地前进。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究生Nick Hynes指出:

“我们在这里看到的是一个没有人为偏见和预设的模型:它可以学习它确定的最佳结果,这与我们自己的相同概念相比可能确实更细微。这就像是一个外来文明发明了自己的数学方法,使它可以做诸如时空旅行之类的事情……”

同样,总经理彼得·海涅·尼尔森 Peter Heine Nielsen)告诉Chess.com

“读了这篇论文之后,尤其是看到了我想的游戏,我一直想知道,如果一个优越的物种降落到地球上,并向我们展示它们如何下棋,那会是什么样。我现在就知道了。”

似乎大多数人对Alpha-zero的新兴游戏风格的反应是“外星人游戏”,而不是“更人性化”。

因此,有理由不同意上面回答“是”的答案。


3
您的答案在某些地方是极具误导性和不正确的。使用MCTS并不是关键的区别,这也不是为什么它能击败Stockfish的原因。他们也可以使用alpha-beta搜索,他们只是觉得MCTS更适合他们。AlphaZero算法的主要元素是一个非常深的卷积神经网络,强化学习(即,网络通过自演进行调整)和树搜索(碰巧是MCTS,但这不是必需的)。它没有手工制作,因此说“它的样式实际上正在向程序员束缚它的模式转变”是不正确的。
IA彼得·哈拉西莫维奇

“国际象棋就是人类思想之间的斗争。这就是令人兴奋的原因。计算机国际象棋是机械的,干燥的,平淡的。当然,动作非常强劲,但是没有风格。” 有没有人对许多通用汽车扮演一个可以是人类或计算机的匿名对手进行了良好的图灵测试风格的实验?

如果您认为我的观点是MCTS是至关重要的区别(在Alpha-zero和Stockfish之间),那么您就错过了我的观点。我的观点是,人类而不是算法决定了Alpha-zero的游戏风格,而是Alpha-zero的决定。我的观点是,这些非常人性化的选择似乎赋予了一种打法,使通用汽车公司(GM)和业余爱好者都绝非人性化。
user34445

评估和演示医生检查出- cs.stackexchange.com/questions/68249/...
user34445

1
@ user34445实际上,我认为该段完全没有意义,我只是在试图使其合理化。人类并没有决定AlphaZero的游戏风格,而是决定了其学习风格。他们当然并没有将对下棋的看法强加于此。
IA彼得·哈拉西莫维奇

5

这是一个非常有趣的时代。

从1970年代开始的国际象棋计算机一直是使用alpha-beta修剪的基于minimax树的搜索算法。由于计算机速度和并行性的提高以及用于修剪分支和选择叶节点的启发式评估功能的改进,这些程序变得越来越强大。但是人们很早就注意到了计算机游戏的物质性和无聊性,许多人(包括我自己)认为不可能将“人类”直觉编码为软件。

但是您看过这些游戏吗?

AlphaZero展现出令人难以置信的漂亮表现,其中包括为长期位置优势牺牲材料的几个例子。这让人想起人类大师制作的一些最精美的游戏,但其技术准确性也无与伦比。这是我一生中第一个通过计算机生成并具有深厚美感的示例。


半人马座主张:

我已经听过Garry多次这样说,但这不是真的。或者至少,当场出现AlphaZero不再是事实。

想象一下:有一个囊,其中有10,000个相关的延续,其中有5,000个纯粹是战术性的(但彼此之间几乎没有关系),而另一个有5,000个是位置性的(但仍然彼此无关)。人类如何在不弄错的情况下筛选所有这些变化?如果AlphaZero现在可以看看这些极富创造力的举动,那么人类可能会做出什么贡献?


最后的边境:

剩下的一个地方,残酷计算仍然会击败深层的神经网络:残局。没有任何直觉会击败数据库。但是,需要表基的结尾(因为搜索树的深度不够,无法仅计算正确的移动)非常少见。您可以将一个数据库插入AlphaZero,但这会破坏“自学式”引擎的纯度,对吗?


3

由于人类缺乏像传统的计算机国际象棋程序(fritz,stockfish等)一样进行深入搜索的能力,因此他们会创建“战略原则”或拇指规则(中心控制,发展,国王安全)以及适用于各种各样情况以不同的方式出现,例如牺牲,车子相连,主教对,特定的结局,例如如何用车子和棋子把国王弄死。

我认为α零独立地重塑了许多这样的概念(感知和概念),并且还学到了许多新的概念-因为不需要将其知识建立在人类评估功能和强大的minmax搜索基础上,该搜索始终假设对手是天才。

当然,这些原则本身在某些情况下会发生冲突,这就是为什么要仔细研究各种开场剧和陷阱的原因-例如,不要过早地开发女王。

另一方面,人类也会注意到,一旦您丢失了一块(没有交换),就会削弱您的力量,因此他们非常小心,不要在没有补偿的情况下丢失一块。

我认为Alphazero的游戏将计算机象棋(和国际象棋)从对丢失小材料和过度依赖打开书本和零件价值的恐惧中解放出来。

如果对手马虎,Alphazero游戏会表现出诸如“战略原则”之类的东西,例如中心控制,发展,空间,主动性等。换句话说,“牺牲”并不是真正的牺牲,而是为了获得主动,地位和指挥行动权衡取舍。

Alphago(不是零)依赖于人工评估,但是alphazero将整个评估链设置为“搜索或模拟”,作为一个端到端的过程,并提出了一种全新的游戏方式。

如果您考虑一下,过去的杰出大师(如Morphy,Fischer和Kasparov)通常因这种“反直觉”游戏而受到称赞,因为他们利用特殊情况可以不受石笔评估的约束出现。我认为Alpha Zero的游戏具有如此“令人赞叹”的因素。

为什么是神经网络。虽然使用符号表示和离散搜索的计算机程序只能使用“一种”思维方式,但神经网络可以并行处理具有交替的,冲突的评估的情况,并在后面的层中切换到更有价值的视图。


2

从某种意义上说,更多人性化似乎与人性化方法或多或少地相符:为长期优势而进行的游戏,位置牺牲,零碎活动。人们的国际象棋知识和公认的战略原则在几个世纪中得到了明显的融合(例如,它“发现”了许多相同的开口)。考虑到AlphaZero尚未植入人为构造的国际象棋知识,这一点非常了不起。

但是相似之处到此为止。AlphaZero将其提升到一个新的水平,并且以人类从未想到的方式做得更好。AlphaZero拥有引用该论文的“超人”功能:“ AlphaZero实现了超人的游戏水平”(https://arxiv.org/pdf/1712.01815.pdf)。此外,它没有人类固有的弱点:注意力集中问题,恐惧,疲倦,感觉,直觉等限制了人类。必要时,它的硅脑可以实现超出人类能力的战术组合。


2
然后有一个悖论。fish鱼得益于人类经验;Alphazero不会。但是Alpha零似乎更人性化。也许意味着,对于Stackfish一代,我们没有做过很好的提炼思想的工作
Philip Roe,

1

我想对所有回答这个问题的人都表示感谢,这些回答常常是含蓄而有洞察力的。在我看来,回应的主要区别在于对人一词的解释。

AlphaZero不会在疏忽和错误计算的意义上下棋,但其“思考”过程似乎以高度的形式与我认为最坚强的玩家的想法相对应。您可以很快地绘制出自己想玩的“候选动作”列表,对于最强的玩家来说,这个列表非常准确,甚至在一分钟之内就玩出了公认的明智游戏。剩下的时间都花在询问上,该清单上的哪些举动确实有效?Petrosian表示,当他最终打出的举动是他最初想到的举动时,他感觉最为稳重。我们都知道,当我们最想打的举动在战术上可玩时,这是多么令人满足。与AlphaBeta搜索相比,我可以更轻松地关联到AlphaZero算法,

看起来最有趣的是,该机器如何通过自我玩法来识别有前途的候选人。这就是真正革命的潜力所在。我不知道这是否仅适用于象棋和围棋这样的领域,在这些领域中可以明确定义目标。但令我惊讶的是AlphaZero似乎表现出了有目的的发挥,但是Stockfish不知道发生了什么。


0

根据我对神经网络的理解,A0的真正优势在于其对电路板位置的出色评估。该评估既包含短期战术知识(在某种意义上可以作为所考察职位数量的乘数),也包括对战略价值的出色评估。


1
欢迎来到国际象棋SE!您能为神经网络以这种方式工作的原因提供参考吗?
巴勃罗·奥卡

0

我觉得整个讨论都错过了一件事,那就是A0可以很好地进行棋,将棋和围棋,而且全部来自自我训练。这更人性化。此外,在实践中,它向顶尖玩家揭示了深刻的新想法(据我所知)。其他引擎是非常特定于任务的,A0似乎不是。我希望看到它下象棋。


1
我看不出这如何回答问题。
SmallChess

-2

我认为Alpha没有任何“人性化”的东西。它只是使用了更强大的硬件并下了更高质量的象棋。它发现的良好的开门动作(例如,用Bg2移至国王的一方)完全是由于其模拟的开门书。我印象深刻的概念以及我在“国际象棋的秘密”中提出的概念:http//davidsmerdon.com/?p = 1970(Alpha在顶级引擎中首次使用)是高级的长链,例如d4 -e5-f6链在Bg6牺牲游戏​​和中央后向制造商中占了上风,这在两个引擎之间的法国国防游戏中都可以看到。这两个概念都涉及到深入的搜索,并且在这里,Alpha可能得益于其强大的硬件。否则,我对它的游戏一无所知。诚然,许多游戏都是


5
您的以下两种说法是不正确的:1)“它使用的硬件要强大得多”-是的,它使用的硬件要比Stockfish强大得多,但这并没有什么不同。这是完全不同的软件,需要强大的硬件。2)“它找到的良好的开门动作完全归功于其模拟的开门书。” -它不使用任何开口书。
IA Petr Harasimovic

正是这一点与众不同:指数级更大的Alpha硬件。每位国际象棋测试员都知道,速度加倍将使国际象棋强度提高大约70埃洛,具体取决于软件。32核与4TPU(1000-2000核)之间的差约为6倍。那将达到420埃洛斯。因此,实际上,尽管它在该硬件上的性能提高了100 elos,但在相同条件下,Alpha的性能却要弱300 elos。
Lyudmil Tsvetkov

当然,不管他们主张什么,它都会使用一本开场白。Alpha已经接受过顶级通用汽车获奖游戏的培训。如果看到阿尔法的空缺职位,那就很清楚了:现代理论所推荐的空缺以及获胜机会最大的空缺。您不会像Bg2那样狂欢。
Lyudmil Tsvetkov

3
@ Lyudmil,Google在Alpha Zero中取得了惊人的成就。它通过只知道游戏规则来与自己对战来自学这些动作!指责Alpha Zero的作弊团队表明您根本不了解他们的成就或使命-他们在推动AI的前沿发展,并且作为一个小小的手势,在一个下午的工作中击败了所有现有的国际象棋引擎和人类才能!
Saille

1
@LyudmilTsvetkov您完全不正确。没有任何人类游戏都训练Alpha Zero(这就是重点)。它被告知规则,然后在没有任何新的外部数据的情况下,在四个小时内独自发明了游戏的各个方面。
Maverick '18年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.