计算机评估：可信度如何？

14

Fritz 12和Rybka在这个残局位置中给我的一个朋友对白色的评价为+3 ，

白动

原来是平局。但是我听说从计算机上获得+3意味着可以保证完美的胜利。我只是听错了吗？一般而言，应该如何解释计算机评估？<.5的开放优势甚至意味着什么？

— 胖乎乎的
source

3

我会挑战“保证胜利”的说法。评估编号是一种启发式指标，基本上是计算机对职位的“感觉”。残局可能会产生“令人惊讶的”结果，除非对计算机进行编程以检测所有可能的模式（或者它可以一路计算），否则它将错过一些结果。换句话说，如果确实保证了+3，则不会是+3，而是+无限。

— Daniel B

作为记录，我使用Lichess 7件式桌脚桌进行了检查，确实是平局。

— PhishMaster '19

8

这里有几件事。

首先，每个程序都有其自己的位置评估方式，因此无法直接比较分数。例如，我最近对Rybka运行StockFish，发现Stockfish的分数大约是Rybka的两倍。我对此感到惊讶，但是很明显，得分1并不总是意味着“ 1个棋子”。我认为我们应该看的是分数如何变化。我昨天看到的另一个好奇心（碰巧在回答另一个问题时）是Stockfish的评估算法不太喜欢奇数。实际上，大多数分数是.04的倍数。鉴于该值的大小是任意的，因此除非机器声称找到配对，否则我不认为任何确定的值都表示“确定胜利”。

其次，创建最终游戏表库是因为解决最终游戏需要大量的搜索深度。以比赛速度玩游戏的计算机表现不佳。几天前，我正在研究另一款游戏，并在此网站上宣布一方有优势。埃德（Ed）使用一个表基来显示该职位上没有留下任何奥秘-理论上是绘制出来的。当然，完美打法和打法之间有很大的区别。玩家必须找到正确的举动。

在游戏初期，通常给怀特的价值很小，这基本上意味着怀特可以拥有更有价值的房地产。例如，在第1步中，怀特可以要求e4并攻击e5和f5。黑可以反击。但是随后怀特可以打Nc3并进攻/加强a4，b5，d5和e4。但是布莱克可以反击。因此，它的意义很小。

最后，要回答您的主题行中的问题-由于评估基于确凿的事实和令人印象深刻的搜索深度，因此非常值得信赖。当然，机器并不是万无一失的。但是我们b玩家必须记住，Stockfish（或Rybka）在适度的硬件上发挥了GM的优势。在最好的通用硬件上，他们估计其额定值为FIDE3200。这是如此之高，以至于只有最好的人才有几分不失的机会。

考虑一下这意味着什么；我（USCF 1650-ISH）有没有对一个人的机会（比如，美中基金会2050）谁有没有机会对一个人（比方说，美中基金会2450）谁有没有机会对一个人（比方说，美中基金会2850）谁拥有条子的反对第一流的商业应用程序（FIDE 3200）的机会。

因此，当斯托克菲什（Stockfish）说一招胜于另一招时，我通常会以其面值为准。当我挂上残局表库时，这东西将开始宣布30秒钟内的配合，哈哈。

— 托尼·恩尼斯
source

1

非常好的回应。我一直认为1的评估意味着1个典当的价值。另外，国际象棋棋子说，解决问题的最好办法是赢得至少2个棋子的素材，因此无论比赛的阶段如何，我都认为+2或以上的引擎评估会获胜。但是，我发现以前对stock鱼的分析是有缺陷的，并且看到它无法正确评估残骸。关于这一点，您知道我在哪里可以找到桌游的数据库吗？

— chubbycantorset 2012年

这是在线的6人表格库，埃德（Ed）发布：k4it.de/index.php?topic=egtb&lang=en

— Tony Ennis，

+1 表示“除非机器声称找到了对方，否则我不会假定任何确定的值表示“确定胜利”。”

— 2016年

14

不同的发动机对其数值评估具有不同的“比例”。例如，在典型的中局位置，还有大量的比赛余地，当霍迪尼说+2.00或更好时，怀特很有可能会获得制胜优势（尽管即使如此，我还是出于某些原因加入了资格）。但是请考虑：可以修改Houdini的源代码，并使评估中涉及的所有数字的绝对值加倍；一个拥有相同强度的引擎可以产生相同的弹奏，但是现在+4.00意味着+2.00曾经的意思。这说明人们不应该期望引擎之间具有统一的数值阈值，而这通常表示获胜优势。

但是，除此之外，重要的是要理解，即使是单个固定引擎，对位置进行数字引擎评估（而不是直接声明必然的配偶）也绝不会严格转换为“获胜游戏”。关键一点是，数值评估在广义的国际象棋术语中没有明确的“含义”，而只是感知方法的替代品，该感知方法用于通过影响引擎在每个点上的选择来机械地引导引擎朝着总体上理想的结果发展。在游戏里; 因此，对于引擎的运行而言，最终最重要的是分配给潜在动作的评估差异，而不是绝对值参与。这些数字对引擎本身很有用，它需要一些具体的信息才能决定一个动作是否又一个动作。但是，我们人类不应太快地将更多含义理解为涉及“ + X表示”等想法的含义。胜利。”

特别是，相对于中间游戏，我们越趋向于终点游戏，我们越不能使用经验法则（例如，我在上述中间游戏中对Houdini的+2.00）接近某个足以胜出的阈值。造成这种情况的一个关键原因是发动机难以识别要塞，在这些要塞中，大量的额外材料仍然不足以获胜。例如，当我在此位置喂鱼

NN-NN

几分钟后，它就给出了大约+7.00的评估，而在通常情况下，当Stockfish说那句话时，您几乎肯定会赢了。不过，这是一个死角，一旦人们意识到布莱克可以在f6和h6之间洗牌，那么人们就可以轻松地看到这一点，因此（1）h-pawn没有用，而（2）白色国王永远无法帮助白皇后进攻。最终，Stockfish也会在这里识别出一个平局，例如，它对接了50个动作，或者最终用尽了不同的动作来尝试并最终无法避免重复，但是这些事件远低于搜索深度线。

您所链接到的较早问题的最终游戏位置类似于这种堡垒，因为额外连接的经过的棋子White拥有不错的一切，但最终不足以赢得该位置。如果引擎要计算足够的时间以查看表数据库中包含的信息，则其评估值将降为0，但与此同时，其评估算法没有什么比为其加上+更好的了。多余的材料（尚不知道是没有意义的）。

— ETD
source

+1代表“但是，

— 除此以外

8

我认为这张照片很好地描述了这种情况。它是由40万个游戏创建的，仅考虑简单的素材。

赢得概率/典当优势

资料来源：典当优势，获胜百分比和ELO

— 托马斯·阿勒
source

1

不错的贡献！+1

— 激进

@Thomas Ahle：该图很有趣。但是原始文章不再可用，但wikispaces链接却不幸地掉了下来。您还记得W = Win Probability的确切含义吗？忽略平局是赢还是输？还是考虑了平局的“预期分数”？

— Diedrsch

@Diedrsch我已更新链接

— Thomas Ahle，