实力雄厚的球员相对于弱势球员的相对移动频率是否有所不同?


24

这个问题是拉蒙·斯尼尔(Ramon Snir)较早版本的一个分支,该问题关于在国际象棋中平均移动不同类型的棋子的频率。我的问题:

给定类型的棋子的相对移动次数在观察强者的游戏而不是弱者的游戏时是否有所不同?(例如,也许较弱的玩家倾向于以棋子动作为代价进行更多的棋子动作,或者他们进行过多的女王动作。我不知道。)

我能够使用别人从大型数据库中提取的原始数据来回答前面的问题。这些数据来自4M +游戏的样本,从大师级比赛到弱势业余比赛,那里给出的移动总数不区分玩家实力。回答我的问题将需要获得强者之间的游戏和弱者之间的游戏的单独数据,我正在寻找由数据而不是轶事支持的答案

这是我问题的更具体形式:

是否有一些Elo等级阈值N,这样一来,当人们查看按游戏类型划分的游戏中的平均移动次数时,在具有大于N的玩家的游戏中发现的结果与在游戏中发现的结果之间存在显着差异N以下的玩家。

如果还可以找到更多类似的东西,那就是有趣的,即可以通过数据挖掘来检测强者和弱者之间的具体差异。这样的发现可能指向阻碍玩家前进的特定行为,或者反过来促使他们前进的行为。现在,也许仅通过查看此类数据就不会发现任何此类差异,但是我也很想知道这一点。


我对这种聚合数据有些怀疑,因为它可能会遗漏重点。有些游戏是通过推棋子与其他棋子一起玩来决定的。一块棋子的移动频率并不能说明棋子的质量。有一条经验法则说,您不应该在开孔中频繁移动单个部件。但是,如果位置证明合理的话,有时强者也会采用这种策略。
迈克尔

@Michael,我完全同意,我要问的因素本身并不能说明比赛的好坏。例如,如果我以与阿罗尼安(Aronian)相同的相对频率移动乐曲类型,那当然并不意味着我的演奏和他一样出色。但这就是为什么会出现上述情况,例如Elo 1800,在这些相对频率上没有可检测到的差异(尽管1800以上的能力范围非常大),而1800以下的则明显偏斜。数据中的发现可能表明玩家低于该强度阈值的一个因素
ETD 2012年

1
请记住,这些数据将向您显示当大师面对其他大师时所做的事情,同样,对于较小的玩家也是如此。理想情况下,您希望比较处于相同位置的优劣玩家的情况,但这可能无法通过数据挖掘来实现,除了开场白。
埃文·哈珀

@EdDean-这是一个非常有趣的话题。知道他究竟从哪里获得了4M +游戏吗?有没有一个地方可以从知名但免费的来源获得相当大的东西(例如10万多个游戏)?我特别考虑的是一个易于下载的资源,而不是“在线搜索”。
丹尼尔·B

1
为了跟进,Wikipedia在国际象棋游戏收藏中提供了一个不错的页面。在这些链接中,第一个链接似乎是最有前途的(下载的压缩PGN数量相对较少),但是缺少了很大一部分(ECO代码B到E),这将使分析变得非常单边且非常无用。
Daniel B

Answers:


29

这是基于“百万基础” PGN数据库的快速肮脏分析。我这样做很匆忙,所以我的编程或逻辑中很可能有错误。请不要将其用于任何严重的问题。 更新-注意:实际上,我刚刚注意到我在数据集上犯了一个错误,并将其限制在前100万条记录中。当我有空闲时间在整个事情上再次运行它时,我将发布更新。同时,这些数字应该很有趣。

获取数据:

我从该URL获得了Million Base 1.74文件,因为当您实际尝试下载top-5000.nl站点时,它似乎是404。该文件以PGN导出格式(即易于解析)包含了超过一百万个游戏。

不幸的是,超过60%的游戏缺少任何分级信息(我一直在寻找“ WhiteELO”和“ BlackELO”标签),而对这两个玩家的分级都更少。最后,我决定尽可能多地获取样本数量,并在知道某位玩家的等级的情况下计算该玩家的举动,而与另一位玩家的等级无关。

处理:

本场比赛进行了逐个解析,如果玩家的等级是已知的,所有的他们对于游戏动作将被添加到总玩家的等级组。我选择将评分分为100组,例如1600至1699是一个组。

由于PGN中的实际移动文本是SAN,因此我使用以下快捷方式来计算移动次数:骑士(N),主教(B),鲁克(R),女王(Q)和国王(K)的移动均以其字母开头。作为特殊情况,卡斯丁(OO和OOO)被分开计算。其余所有动作均视为典当动作,无需进一步检查。

没有完成数据清理。没有尝试找出异常值并将其删除(例如,过长和过短的游戏等等)。我保留但未包括在下面的分析中,评分低于1600的结果-这些游戏的样本量远低于100,导致结果差异很大。原始数据在这篇文章的结尾处提供。

信息的一些缺点:目前,我仅收集了非常基本的总数,并提供了平均值。我很确定,通常来说,数据不是正常分布的,但是如果不实际输出原始计数并通过统计程序运行它们,就无法说更多。如果有兴趣,我可以这样做。目前,这意味着没有置信区间,也没有有关这些平均值表示的数字分布的其他信息。我也没有检查数据集可以使用多少年-如果它代表很多年,尝试校正该领域的整体实力可能会有所帮助。

一些趋势:

关于玩家评分的信息-遇到的最频繁的评分组依次为:2400至2500、2500至2600和2300至2400。这些评分组提供了72%的比赛数。

从实际结果来看,平均游戏时间有些令人惊讶:

评分组平均移动次数

2000级以下的评分组的比赛时间明显短于较高的评分组。很有可能是因为他们打的是更强的对手(请参见上面的平均评分),并且他们以较少的动作被击败的可能性。尽管这可能会导致样本量减少,但这似乎与最高评分组的比赛时间略短有关。

平均游戏时长的相对较大差异意味着提供移动特定棋子的频率,而不是移动棋子的总次数,可能是更公平的比较。计算频率的结果如下图所示:

逐段移动频率

似乎存在以下趋势:

  • 骑士移动的频率似乎随着等级的升高而略有下降。
  • Bishop将趋势向下移动直到2000年左右,然后缓慢向上移动。
  • 白嘴鸦的移动趋势大致在同一点急剧上升,并且在高水平比赛中比毕晓普的移动更加频繁。
  • 随着等级的提高,典当动作似乎会略有下降。2800到2900是头等大类,这是一个很大的例外。这使我们进入了下一点:
  • 评分最高的类别在许多方面提供了异常值或反趋势。可以用多种方式解释这一点-1)样本数量相当低,为363,不是很小,而是包括的下一个最小样本数量的10%。2)由于他们是排名组中的佼佼者,因此他们永远不会比自己扮演“更强”的对手。3)或者仅仅是在这个水平上,他们的打法已经超越了他们下面的水平。我的猜测是1)和2)的结合。
  • 皇后动作和cast步动作之间的差异很小,没有任何实际趋势,除了两种情况下都有微小的下降趋势。
  • 国王举动的频率有一些最大的不同。没有明显的趋势可见,并且似乎改变了方向3或4倍。

进一步分析

未来分析的一些想法:

  • 基本的统计修正:我认为应该将极短和较长的比赛排除在外。另外,实际计数的分布可能非常有说服力。
  • 将分析进一步拆分可能还会产生有趣的结果。例如,我想知道黑白频率如何匹配(它们是相同还是不同?为什么?)。
  • 通过等级差异进行分类也可能很有趣,扮演更强大对手(例如,比他们高200等级)的玩家会以不同的移动频率进行游戏吗?不幸的是,这要求双方都知道自己的ELO,这在此数据集中是很少见的。
  • 短城堡和长城堡的倾向也可能因评级而异。
  • 单件促销统计数据,以及一些简单的结构分析(例如,双典当率,过客率,大头针,叉子的发生率,按等级显示)可能很有见地。
  • 实际电路板上的零件放置的“热图”(由等级显示)可能也很有趣。

以CSV格式汇总数据

对于那些想要使用数据的人,请放心。

评分范围,样本大小,平均游戏时长,平均棋子动作,平均骑士动作,平均主教动作,平均新手动作,平均皇后动作,平均国王动作,平均卡廷动作

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857

真好!感谢您在此处输入数字。顺便说一句,如果您认为“进一步分析”部分中的任何构想已经成熟,可以随时提出来,请不要犹豫。
ETD 2012年

1
@EdDean谢谢,如果时间允许,我可能会做一些进一步的分析。我还注意到可以进行一些进一步的改进(例如,过滤闪电战和同形游戏,可能还有其他),因此可能需要做一些工作。我有东西的时候会创建一个更新。
Daniel B

1
哇。那是一个很好的答案。太棒了
James Tomasino 2012年

3
如果说,强势球员中新手动作的增加,仅表示他们更有可能以长途新手结局,而不是更频繁地在相似位置上移动新手,我就不会感到惊讶。
dfan

3
@dfan我同意,这些数字可能与各种二阶效应有关,例如,评分较低的玩家过早出现失误而没有进入漫长的终局,等等。我对如何使其更加准确有各种各样的想法,但是不幸的是没有时间实施它们。
丹尼尔·B
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.