为什么Elo评分系统使用错误的更新规则?


10

Elo评级系统使用成对比较中预期和观察到的结果概率之间的交叉熵损失函数的梯度下降最小化算法。我们可以写成一般的损失函数为

E=n,ipiLog(qi)

其中所有结果和所有反对者的总和。 是事件的所观察到的频率和预期频率。Ñ p q inpiiqi

如果只有两个可能的结果(赢或输)和一个对手

E=pLog(q)(1p)Log(1q)

如果是玩家的排名,而是玩家的排名,我们可以建立期望概率为 然后使用梯度下降更新规则π Ĵ Ĵ q = È π πiiπjj qĴ=È π Ĵ

qi=eπieπi+eπj
qj=eπjeπi+eπj

πi=πiη(qipi)

πj=πjη(qjpj)

其中和是玩家对玩家获胜的预期和观察到的概率。这是更新规则。p Ĵqipiijtwo outcomes

在有抽奖的情况下,我们可以将上述模型(包括和第三个结果)概化

q瓦特=Èπ

q(d)=νeπi+πj2eπi+eπj+νeπi+πj2
qĴ瓦特=ÈπĴ
qi(w)=eπieπi+eπj+νeπi+πj2
qj(w)=eπjeπi+eπj+νeπi+πj2

我们可以将Loss函数构建为

E=p(w)Log(q(w))(1p(w)p(d))Log(q(l))p(d)Log(q(d))

其中分别是所观察到的似然性,并和的期望似然值,和。在后一种情况下,更新规则为q w q l q d p(w),p(l),p(d)winloosedrawq(w),q(l),q(d)winloosedraw

πi=πiη(qi(w)+qi(d)2pi(w)pi(d)2)

πj=πjη(qj(w)+qj(d)2pj(w)pj(d)2)

其中和是玩家获胜并吸引玩家的预期概率。其中和是观察到的玩家获胜并与玩家对抗的概率。这是更新规则。qj(w)qj(d)ijpi(w)pi(d)ijthree outcome

问题是,two outcomes即使出现抽奖,Elo评级系统为何也使用更新规则?

Answers:


3

与具有决定性结果相反,在Elo系统中未指定绘制概率。取而代之的是在预期的表现和比赛的结果中考虑平局-半赢半输。

Wikipedia中Elo页面上的一个示例:“玩家的预期得分是他获胜的概率加上一半的绘画概率。因此,预期得分0.75可以表示获胜的几率分别为75%,失败的25%和0%的机会。在另一个极端,它可能代表获胜的机会为50%,失败的机会为0%,以及获胜的机会为50%。”

正如我所说,绘制的概率没有指定,它导致一个简单的two outcome更新规则,其中,因此,在一场比赛之后,(获胜)或(平局,半场获胜)或(损失)。小号 = 1 Ñ 瓦特 + 0.5 Ñ d+ 0 0.5 Ñ d + Ñ 小号 = 1 小号 = 0.5 小号A = 0RA=RA+K(SAEA)SA=1(nw+0.5nd)+0(0.5nd+nl)SA=1SA=0.5SA=0

像Elo一样,Glicko系统也不对平局进行建模,而是根据获胜和失败(每位玩家)的平均值进行更新。取而代之的是,在TrueSkill排名系统中,“抽奖是通过假设特定游戏中的性能差异较小来建模的。因此,抽奖的机会仅取决于两个玩家的玩法强度的差异。但是,游戏中的经验发现的象棋表演表明,与初学者相比,职业球员之间更有可能进行抽奖。因此,抽奖的机会似乎也取决于技能水平。”

这种方法需要为每个游戏使用不同的特定模型(并且TrueSkill应用于一些Microsoft Xbox游戏),因此它适用于Elo和Glicko(仅用于国际象棋设计),不适用于rankade(我们的多功能排名系统)。


“球员的预期得分是他获胜的概率加上一半的获胜概率。” 正是我在上面的公式中找到的。无论如何,在Elo更新公式中,正如您所指出的那样,未指定抽取概率的一半。问题仍然存在,为什么在Elo排名系统中我们不关心抽奖?
emanuele

1
总是可以将预期分数表示为获胜的机会和输失的机会(以及抽奖的机会为零-参见Wikipedia的第一个示例)。在这种情况下,“玩家的预期分数是他获胜的概率”(还有更多,因为抽奖的一半概率为零)。在一场比赛之后,结果是胜利,或者是失败,或者是半场胜利。即使您有允许平局的游戏,也可以仅使用赢和输的组合来更新Elo得分,好像平局没有机会。
Tomaso Neri
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.