这是基于“百万基础” PGN数据库的快速肮脏分析。我这样做很匆忙,所以我的编程或逻辑中很可能有错误。请不要将其用于任何严重的问题。 更新-注意:实际上,我刚刚注意到我在数据集上犯了一个错误,并将其限制在前100万条记录中。当我有空闲时间在整个事情上再次运行它时,我将发布更新。同时,这些数字应该很有趣。
获取数据:
我从该URL获得了Million Base 1.74文件,因为当您实际尝试下载top-5000.nl站点时,它似乎是404。该文件以PGN导出格式(即易于解析)包含了超过一百万个游戏。
不幸的是,超过60%的游戏缺少任何分级信息(我一直在寻找“ WhiteELO”和“ BlackELO”标签),而对这两个玩家的分级都更少。最后,我决定尽可能多地获取样本数量,并在知道某位玩家的等级的情况下计算该玩家的举动,而与另一位玩家的等级无关。
处理:
本场比赛进行了逐个解析,如果玩家的等级是已知的,所有的他们对于游戏动作将被添加到总玩家的等级组。我选择将评分分为100组,例如1600至1699是一个组。
由于PGN中的实际移动文本是SAN,因此我使用以下快捷方式来计算移动次数:骑士(N),主教(B),鲁克(R),女王(Q)和国王(K)的移动均以其字母开头。作为特殊情况,卡斯丁(OO和OOO)被分开计算。其余所有动作均视为典当动作,无需进一步检查。
没有完成数据清理。没有尝试找出异常值并将其删除(例如,过长和过短的游戏等等)。我保留但未包括在下面的分析中,评分低于1600的结果-这些游戏的样本量远低于100,导致结果差异很大。原始数据在这篇文章的结尾处提供。
信息的一些缺点:目前,我仅收集了非常基本的总数,并提供了平均值。我很确定,通常来说,数据不是正常分布的,但是如果不实际输出原始计数并通过统计程序运行它们,就无法说更多。如果有兴趣,我可以这样做。目前,这意味着没有置信区间,也没有有关这些平均值表示的数字分布的其他信息。我也没有检查数据集可以使用多少年-如果它代表很多年,尝试校正该领域的整体实力可能会有所帮助。
一些趋势:
关于玩家评分的信息-遇到的最频繁的评分组依次为:2400至2500、2500至2600和2300至2400。这些评分组提供了72%的比赛数。
从实际结果来看,平均游戏时间有些令人惊讶:
2000级以下的评分组的比赛时间明显短于较高的评分组。很有可能是因为他们打的是更强的对手(请参见上面的平均评分),并且他们以较少的动作被击败的可能性。尽管这可能会导致样本量减少,但这似乎与最高评分组的比赛时间略短有关。
平均游戏时长的相对较大差异意味着提供移动特定棋子的频率,而不是移动棋子的总次数,可能是更公平的比较。计算频率的结果如下图所示:
似乎存在以下趋势:
- 骑士移动的频率似乎随着等级的升高而略有下降。
- Bishop将趋势向下移动直到2000年左右,然后缓慢向上移动。
- 白嘴鸦的移动趋势大致在同一点急剧上升,并且在高水平比赛中比毕晓普的移动更加频繁。
- 随着等级的提高,典当动作似乎会略有下降。2800到2900是头等大类,这是一个很大的例外。这使我们进入了下一点:
- 评分最高的类别在许多方面提供了异常值或反趋势。可以用多种方式解释这一点-1)样本数量相当低,为363,不是很小,而是包括的下一个最小样本数量的10%。2)由于他们是排名组中的佼佼者,因此他们永远不会比自己扮演“更强”的对手。3)或者仅仅是在这个水平上,他们的打法已经超越了他们下面的水平。我的猜测是1)和2)的结合。
- 皇后动作和cast步动作之间的差异很小,没有任何实际趋势,除了两种情况下都有微小的下降趋势。
- 国王举动的频率有一些最大的不同。没有明显的趋势可见,并且似乎改变了方向3或4倍。
进一步分析
未来分析的一些想法:
- 基本的统计修正:我认为应该将极短和较长的比赛排除在外。另外,实际计数的分布可能非常有说服力。
- 将分析进一步拆分可能还会产生有趣的结果。例如,我想知道黑白频率如何匹配(它们是相同还是不同?为什么?)。
- 通过等级差异进行分类也可能很有趣,扮演更强大对手(例如,比他们高200等级)的玩家会以不同的移动频率进行游戏吗?不幸的是,这要求双方都知道自己的ELO,这在此数据集中是很少见的。
- 短城堡和长城堡的倾向也可能因评级而异。
- 单件促销统计数据,以及一些简单的结构分析(例如,双典当率,过客率,大头针,叉子的发生率,按等级显示)可能很有见地。
- 实际电路板上的零件放置的“热图”(由等级显示)可能也很有趣。
以CSV格式汇总数据
对于那些想要使用数据的人,请放心。
评分范围,样本大小,平均游戏时长,平均棋子动作,平均骑士动作,平均主教动作,平均新手动作,平均皇后动作,平均国王动作,平均卡廷动作
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857