关于评级通货膨胀有很多研究吗？

24

马格努斯·卡尔森（Magnus Carlsen）在昨天举行的2012年伦敦国际象棋经典赛中的抽签确保了他在下一次发布的FIDE评分列表中的评分将超过卡斯帕罗夫（Kasparov）以前的2851记录。与Fischer的比较。要明确的是，这不是我想要的。

此类讨论的一个关键要素是关于Elo等级总体上是否随着时间的推移而经历了通货膨胀的观念：今天是因为比赛实力的普遍提高，还是因为某些实力的提高，如今拥有2700多个大师级人物的数量是否比20年前更多？总体通胀趋势有多少？我也不是想征询关于是否如此的裸露观点。我感兴趣的是：

关于FIDE Elo等级是否由于玩家人数的整体增长以外的其他因素而自然升值，已经进行了认真的研究尝试来回答这一经验性问题？

关于Elo评分系统的Wikipedia条目对此事有一点话要说，并且还指向Chessmetrics的Jeff Sonas的文章。除了别人的工作指针，我也将欢迎一个答案，该答案给出了索纳斯主要观点的清晰简洁的总结。

— ETD
source

要考虑的另一件事是USCF评级的通胀。USCF已经并且定期对玩家的恐怖做出调整。由于USCF和FIDE使用相同的系统，从根本上说，如果通货膨胀会影响USCF而不是FIDE，我会感到惊讶。

— Tony Ennis

2

这些系统是不同的，例如，USCF的评级下限显然是通货膨胀因素。

— RemcoGerlich

19

令我惊讶的是，肯·雷根（Ken Regan）和盖伊·海沃斯（Guy Haworth）撰写的“内在国际象棋等级”尚未发表。正是需要对通货膨胀率进行认真研究。PDF格式

基本上，他们获得了三个时期（1976-1979、1991-1994、2006-2009）的游戏，这些游戏的评分范围有所不同（例如，两个玩家的得分均在2200分之内，两个得分均在2300分之内，等等），并且排除了可能是异常的，例如团队比赛。阅读本文，它看起来相当透彻。

然后他们系统地将游戏与Rybka 3进行了比较。

结论中的一些句子：

我们得出的结论是，实际棋手的Elo等级与象棋程序和座席拟合所衡量的举动选择的内在质量之间存在一种平滑的关系。此外，对于所有三个时间段的相应条目，获得的最终拟合值几乎相同。

我认为，这是有力的证据表明存在评级通胀。

— 雷姆·格里奇
source

1

感谢您发布此信息，我也来分享了此信息。这是将玩家与客观标准进行比较的唯一研究领域。我所看到的有关对通货膨胀进行评级的所有论点都是主观的，而且通常是轶事。就个人而言，我认为Morphy大概是2300年这一事实并没有消除我对他的比赛或他当时相对于竞争对手的技能的欣赏。

— Sam Copeland

12

我在附近戳了一下。您可能已经看过这些页面，但是无论如何我都会发布它们：

一种。此页面将使您感兴趣。其中包括埃洛本人写的一封信的影印本，信中注明了以下可能性：

因此，随着时间的推移，除非采取一些措施使其稳定，否则评级表可能会漂移。

他进一步提到，收视率表没有锚点，没有固定点。与一个小时内参加比赛的运动员相比；现在的一个小时与50年前的一个小时相同。时间是如此固定。

b。此外，最近从偏远地区传来的高评级新闻是否已经回答了“通货膨胀”问题？请参阅此页面的“玩家池”部分以暗指该问题。额外的支持，尽管它不是学术性的，也不是特别有用的。搜索“ isol”。这是另一个轶事，显示了孤立的人群会发生什么（以及“为什么下棋者发疯”线程的另一个候选者！）我没有事实检查，但应该很容易做到。

C。该的Elo wiki文章对通货膨胀的会谈，就好像它是一个公认的事实。

d。这是一篇有关通货膨胀及其后续措施的相关文章。看看1986年的那支吸烟枪！

— 托尼·恩尼斯
source

我没有从a。看到页面，谢谢。关于b。，我不知道您指的是什么。你能详细说明吗？

— ETD 2012年

2

我认为，没有实际的锚点，就不可能准确地进行调整。最后，我们只是顺理成章地调整为任意值。

— Daniel B

可能吧但是调整收视率以产生相似的分布曲线可能是一个好的开始。例如，几年前，USCF调整了收视率，因此俱乐部的平均水平是1500。我不知道他们是否仍然这样做。

— 托尼·恩尼斯

1

@TonyEnnis当然，我认为目前为止可能还不错。具体来说，我的意思是：如果今天的“普通俱乐部球员”实际上比50年前更好，那会发生什么？并不是说我们可以让他们与过去的球员对抗……所以我们剩下的就是以某种方式估算球员的实力并进行调整。也许使用计算机程序（在标准的指定平台上运行），我们可以拥有某种公正，持久的锚点。但是，即使这将有问题的，比如，对基准程序等工作以及战略的发现

— 丹尼尔乙

5

绝对来说，卡尔森2012年肯定比1985年的卡斯帕罗夫更强大。

如果2012年卡尔森与卡斯帕罗夫（Kasparov）1986参加比赛，卡尔森将击败卡斯帕罗夫。这仅仅是因为技术辅助的准备工作效率更高，而且卡尔森在开放理论上也有优势，因为他拥有1987-2012年积累的知识，而卡斯帕罗夫则没有。

但是，卡斯帕罗夫可能比卡尔森更强大。如果我们将2000年6月的FIDE前100名排行榜（可以获取的历史最悠久），就会发现Kasparov的2849 Elo与99位关注者的平均得分为2641（Elo距离为208分），而Calsen则是Fide的前100名2012年12月，Elo的99位关注者平均与2702人竞争（Elo距离为146点）。

Elo是关于分数的差异，而不是绝对值（Elo的100分数意味着玩家A比参与者B好2倍，200分数意味着玩家4更好，依此类推。以此类推，这意味着卡斯帕罗夫（Kasparov）平均比其99位追随者平均高出4倍以上，而卡尔森（Carlsen）可能仅比其99位追随者的平均水平高出3倍。

如果我们以卡斯帕罗夫与他的99位追踪者之间的最大距离为榜单，并将这一距离与卡尔森的最佳距离进行比较，我们将能够确定哪个球员实际上是最大的，因为有了99个数据点，离群值（像另一个天才一样）得到缓解。

但是我不知道卡尔森或卡斯帕罗夫是否真的在乎谁更好。

— p
source

3

您关于卡斯帕罗夫是比卡尔森更强的球员的论点在于将每个人与接下来的99名最佳球员进行比较。您正确地注意到Elo等级是相对的，但是您的论点做出了第二个未阐明的假设，即今天的下一个99名球员的平均踢球强度与卡斯帕罗夫鼎盛时期的下一个99名球员相同。如果第二个假设不成立，那么您正在将Kasparov和Carlsen与不同的标准进行比较。您需要找到一群与卡斯帕罗夫时代相同的人。该池可能是您的普通初学者，而不是超级宗师。

— Thucydides411

4

Elo的系统有两个组件。一个独立于历史，另一个独立于历史。他的用于在事件过程或一段时间内创建“绩效评估”的系统没有任何历史意义；它只是衡量指定时间内的效果的指标。（在这一点上，记忆使我失望，但我认为当他计算FIDE的评分时，这就是他使用的方法。）

但是，全球各地的联合会使用的Elo系统确实具有历史成分，因为评级是通过计算增量（与先前评级的变化）来计算的。

基于历史的系统具有通缩的自然趋势。该系统是封闭系统，没有创建新点。因此，新玩家进入，从既有玩家那里获得积分，然后退出（通过死亡或退休），然后将所有这些积分返回给下一批上升的玩家。

已经尝试了许多想法来弥补这一点，有些想法比其他想法更好。加上70年代初期USCF的商业压力，要求其提高评分速度（相当愤世嫉俗的观点是，玩家会从USCF购买一本书并参加比赛，他们的评分会上升，从而鼓励他们购买另一本书书等），在历史上的某些时候，通货膨胀是一件实事。

由于Elo的系统是基于正常的（钟形）曲线，因此尝试通过测量两个极端来衡量通货膨胀是没有意义的。与实际实力的变化或任何形式的通货膨胀相比，极端情况更容易受到被评估球员总数的影响。

— 阿伦
source

1

我有一个简单的主意。让我们通过评估其象棋计算机（硬件和软件）来评估其20年前的等级，方法是与其他具有20年前已知评级的象棋计算机一起玩。现在，通过与现代棋牌计算机一起玩，以今天的已知等级来衡量它的等级（完全相同的硬件加上完全相同的软件）。两次测量的差异将构成过去20年的评级通胀。很简单？

— alex1220
source

它将或多或少地计算计算机而不是人类玩家的额定通胀率。人类与计算机之间的对抗方式不同。

— Glorfindel

1

Regan-Haworth论文的结论应该带有一点点咸味，因为它似乎在更好的软硬件和更先进的数学方法上与其他游戏的计算机分析相矛盾。在那里，他们得出结论（见表9），例如，1977年的卡尔波夫的表现略低于2001年的卡斯帕罗夫和2008年的阿南德（预期得分约47％），实际上比2005年的托帕洛夫和波诺马里诺夫好。 2011年。由于Kasparov-2001的评分比Karpov-1977高150分，因此该评分将使他获得70％的得分。我看不出如何与没有评级通胀的说法相协调。

还要注意，与问题中的隐含主张相反，没有一种机制可以通过评分反映玩家池中总体实力的变化。在经验上可能是2600玩家的典型实力在特定时间段内没有变化的情况，但这仅是巧合，而不是ELO系统基本属性的反映，并且肯定不能推广。

如果我们只是天真地定义通货膨胀并仅衡量前100名参与者的平均评级，那么，从此链接可以看出，直到2012年，通货膨胀率一直稳定，此后没有通货膨胀-前100名平均评级在2700之间波动和最近的7年中的2705。

— Kostya_I
source

0

首先，必须定义最佳含义。例如，这是否最能说明您是那个时代最主导的玩家？还是说您的播放器的质量优于其他所有播放器。如果质量就是您的意思，那么您如何定义质量？

保罗·莫菲（Paul Morphy）可能是最主要的球员。例如，当他12岁的时候，他在一场3-0比赛中击败了前十名球员（洛文塔尔）。根据Edo和Chesmetricmetrics的介绍，他可能已经是12岁以下世界上最好的球员之一！在21岁那年，他与5名前十名选手（伯德，巴恩斯，博登，德·瑞维耶尔和洛文塔尔）同时对战，并取得3-2的得分。

但是，大多数人认为，支配地位不能很好地表明谁是最好的。毕竟，Morphy被描述为第一位现代国际象棋棋手。与随后的冠军相比，他的比赛较弱。

使用的另一个定义是游戏质量。但是，这个定义也有很多问题。在1900人中，有很多人认为Steinitz或Lasker是有史以来最出色的球员，他们辩称他们对开放和现代理论的了解将使他们超越过去。但是，路易斯·保尔森（Louis Paulsen）对此假设提出了非常巧妙的论据。他认为，如果墨菲（拥有照片的记忆并在19岁之前记住了路易斯安娜条形码）如果重获新生，将在一年内学习开场知识和现代理论，并能够与现代国际象棋选手成功竞争。

里根认为，能够使用国际象棋计算机和现代培训方法的现代国际象棋棋手比过去的棋手更像计算机。这并不奇怪，因为他们是经过计算机培训的，但这是否意味着现代玩家真的更好？这就引出了一个问题，如果Fischer或Capablanca可以使用现代计算机，他们会怎么做？

另外，里根教授的分析计算机使我感到相当不完整，因为它仅涉及五年的时间，并且未提及分析中包含的参与者。Matej Guid教授和Ivan Bratko教授对计算机进行了更彻底的分析，发现事实上Capablanca玩起来比现代玩家更像一台计算机！https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-。但是，吉德和布拉特科指出，由此得出结论，卡帕布兰卡是一个更好的球员，这是一个问题。也许他颇为安宁的风格导致了他可能失误的职位减少。因此，他的失误率较低，但与更具侵略性的球员相比，他对对手的压力也较小。实际上，卡帕布兰卡比他的同时代人有较高的抽奖百分比。

相比之下，像卡斯帕罗夫这样的高战术性球员可能会因为他的打法而受到惩罚，因为他的打法更有可能导致高战术性位置，尤其是计算机在发现错误时表现出色。实际上，计算机在对抗战术玩家方面的表现往往要好于战术扮演次要角色的位置或特别是封闭位置的玩家。因此，依赖于计算机检测到的错误数量的计算机分析可能会有利于稳固的平仓交易者。相比之下，像卡斯帕罗夫这样的富于攻击性的球员可能会比其他一些球员犯下更多的战术错误，因为他寻求的位置非常复杂，但他的对手会犯更多的错误！

因此，您需要一个错误加权系统，该系统不仅要计算每100次移动的错误百分比（这基本上就是Regan和Guid和Bratko所做的事情）。相反，您需要计算错误率和对手错误率之间的差。毕竟，国际象棋所犯的错误要少于对手。在对手身上施加压力，促使他们犯更多错误，这被认为是一种很好的素质。

但是，我修改后的计算方法导致了另一个问题，那就是这些计算机分析没有考虑对手的实力。例如，拉尔森（Larson）可能获得了很高的象棋指标评分，因为他的进取（乐观）风格导致他在较低评分的球员中占据优势。但是，他在与同等级别的球员比赛中遇到麻烦。其他球员经常争辩说，他在与其他高评价球员的比赛中过于乐观。为避免此问题，计算机错误检查分析应仅着眼于强大的竞争对手（例如，前10名，20名或100名玩家）的比赛。但是，这仍然不能解决随着时间的推移而加剧激烈竞争的问题。

可以通过查看诸如化学计量学的反向评级来纠正提高比赛质量的问题吗？实际上，我更喜欢Edo评分系统http://www.edochess.ca/因为统计假设更好。例如，化学计量学假设玩家的最高评分发生在40岁时。我怀疑这是否对每个人都正确，并且许多球员在那个年龄之前就放弃了国际象棋，或者他们的比赛仅仅是几年来的最高水平（例如，哈里·纳尔逊·皮尔斯伯里，查卢塞克，菲舍尔，莫菲，鲁宾斯坦，好）。不幸的是，江户只比较了1811年至1920年的球员等级。据江户称，卡帕布兰卡和莫菲被评为该时代的两名最高球员。根据Chessmetrics，Capablanca和Lasker是两个最佳玩家（Morphy甚至没有进入前十名。）根据Chessmetrics，Zukertort，Steinitz，Tarrasch，Lasker，Pillsbury，Maroczy，Marshall，Janowsky，Chigorin，Schelecter，Blackburne，杜拉斯（Duras），蒂希曼（Teichmann），诺伊曼（Neumann），维德马尔（Vidmar），古斯伯格（Gunsberg），鲁宾斯坦（Rubinstein）和伯恩（Burn）比莫菲（Morphy）更好。

如果创新会随着时间的推移在特定的国际象棋时代内占据主导地位，并且随着比赛强度的提高，随着时间的推移创新变得越来越困难，那么您仅靠查看前30名球员的比赛记录就无法衡量出真正的统治地位。就是说，与前冠军相比，麦格纳斯·卡尔森要统治对手要困难得多。如果您查看落后评级，很容易看到顶级球员评级之间的差异幅度随着时间的推移而逐渐减小。因此，我认为，考虑到随时间推移而难以控制的Edo类型统计模型将是一种比以前尝试过的方法更好的方法。例如，菲舍尔（Fischer）在他的时代是一个相当统治的球员，因为他连续赢得了20场比赛。与这种连胜纪录相比，Kasparov或Karpov最长的连胜纪录是什么？根据塞拉万的说法，他们最长的连胜纪录是七场比赛。

当然，我并不是说胜利连胜是一个不错的指标。我只是在争辩说，以评分或在与其他顶级玩家的个人比赛中的优势是一个有用的指标，在当前的反向评分系统中并未明确考虑到这一点。

因此，我的梦想分析是，您使用Edo评级基于一个数据库，该数据库仅包含每个五年期间排名前20或前30的球员。完成此分析后，您将根据优势因子对结果进行加权。也就是说，最近的玩家会获得奖励因子，该因子是通过估算随着时间的推移统治难度的轨迹（随着时间的推移，前30名玩家之间的评分差异的减小）而计算得出的。接下来，您将通过比较棋手在计算机上计算出的错误百分率（其对手的负值减去自己的错误率）来验证此分析。如果这使上述方法无效，那么即使考虑到我的优势因素，如果仍显示有更多最新的顶级玩家比赛的趋势，则需要根据计算机错误检查分析进行重新加权。

根据我的观察，我的猜测是卡斯帕罗夫会做得很好。但这只是一个猜测。

— 托德
source

2

这似乎无法回答问题。

— 赫尔·沃尔夫

我的观点是，在定义国际象棋能力之前，您无法回答有关对通货膨胀进行评级的问题。我回顾了旨在调整等级通货膨胀或试图确定国际象棋冠军的能力随时间变化的研究（这就是等级通货膨胀的全部含义）。我认为问题在于研究人员尚未真正确定他们对国际象棋能力的假设。我认为，如果没有定义国际象棋能力，就无法回答国际象棋能力是否会随时间变化或说出有关通胀率的问题。

— ToddM '17