Elo评级系统使用成对比较中预期和观察到的结果概率之间的交叉熵损失函数的梯度下降最小化算法。我们可以写成一般的损失函数为
Ë= - Σñ ,我p一世大号Ò 克(q一世)
其中所有结果和所有反对者的总和。
是事件的所观察到的频率和预期频率。Ñ p 我我q 我一世ñp一世一世q一世
如果只有两个可能的结果(赢或输)和一个对手
Ë= - p 大号ö 克(q)− (1 − p )L o g(1 − q)
如果是玩家的排名,而是玩家的排名,我们可以建立期望概率为
然后使用梯度下降更新规则我π Ĵ Ĵ q 我 = È π 我π一世一世πĴĴ qĴ=È π Ĵ
q一世= eπ一世Ëπ一世+ eπĴ
qĴ= eπĴËπ一世+ eπĴ
π′一世= π一世- η(q一世- p一世)
π′Ĵ= πĴ- η(qĴ- pĴ)
其中和是玩家对玩家获胜的预期和观察到的概率。这是更新规则。p 我我Ĵq一世p一世一世Ĵtwo outcomes
在有抽奖的情况下,我们可以将上述模型(包括和第三个结果)概化
q我(瓦特)=Èπ我
q(d)= νËπ一世+ πĴ2Ëπ一世+ eπĴ+ νËπ一世+ πĴ2
qĴ(瓦特)=ÈπĴq一世(w )= eπ一世Ëπ一世+ eπĴ+ νËπ一世+ πĴ2
qĴ(w )= eπĴËπ一世+ eπĴ+ νËπ一世+ πĴ2
我们可以将Loss函数构建为
Ë= − p (w )L o g(q(瓦特))- (1 - p (瓦特)- p (d))大号Ô 克(q(l ))− p (d)大号Ô 克(q(d))
其中分别是所观察到的似然性,并和的期望似然值,和。在后一种情况下,更新规则为q (w ),q (l ),q (d )p (w ),p (l ),p (d)win
loose
draw
q(瓦特),q(升),q(d)win
loose
draw
π′一世= π一世- η(q一世(w )+ q一世(d)2- p一世(w )− p一世(d)2)
π′Ĵ= πĴ- η(qĴ(w )+ qĴ(d)2- pĴ(w )− pĴ(d)2)
其中和是玩家获胜并吸引玩家的预期概率。其中和是观察到的玩家获胜并与玩家对抗的概率。这是更新规则。qĴ(w )qĴ(d)一世Ĵp一世(w )pi(d)ijthree outcome
问题是,two outcomes
即使出现抽奖,Elo评级系统为何也使用更新规则?