AUC是半正确的评分规则意味着什么?


16

正确的计分规则是“真实”模型最大化的规则,并且不允许“对冲”或对系统进行博弈(故意报告不同结果,因为该模型的真实信念是提高分数)。石棉分数是适当的,准确性(正确分类的比例)是不适当的,并且经常受到阻碍。有时我会看到AUC被称为半正确评分规则,这使其准确性不完全虚假,但不如适当规则敏感(例如,此处/stats//a/90705/53084)。

半正确评分规则是什么意思?它在某处定义吗?


您在其中看到的术语来源或参考可以帮助人们进行深入研究?
Sixiang.Hu

我认为,这与以下事实有关:在概率预测的情况下,AUC大约等于适当指数的一致性指数。但这听起来像是弗兰克·哈雷尔(Frank Harrell)回答的问题:stats.stackexchange.com/users/4253/frank-harrell
Brash Equilibrium

2
据我所知,AUC是一致性指数,不恰当。
rep_ho

Answers:


14

让我们从一个例子开始。说爱丽丝(Alice)是一名田径教练,他希望挑选一名运动员代表球队参加即将到来的200m冲刺体育比赛。自然,她想选择最快的跑步者。

  • 一个严格正确的得分规则是提名200m距离内最快的团队。在这种情况下,这恰好使教练爱丽丝想要的最大化。选择预期成绩最快的运动员-这是一个公平的歧视性测试。
  • 一个合适的评分规则将挑选运动员是谁能够跑200M中最快的,但时间是四舍五入的第二最近的一半。最好的运动员以及潜在的其他运动员也将能够通过此测试。以这种方式选出的所有运动员都具有相当的竞争力,但是显然这并不是对速度的完美区分测试。
  • 一个半正确评分规则将挑选一个运动员谁是低于竞争的时间阈值能够运行200M,例如22秒。和以前一样,最好的运动员以及其他一些运动员也将能够通过此考试。同样,以这种方式选择的所有运动员都可能具有相当的竞争力,但显然,这不仅不是一个完美的歧视性测试,而且还会变得非常糟糕(如果我们选择太宽容或太严格的时间)。请注意,这并非完全错误。
  • 一个不正确的评分规则会挑选最强的腿,如谁可以蹲下最权重的运动员。当然,任何一个优秀的短跑运动员都可能拥有非常强壮的双腿,但是这项测试意味着举重队的一些家伙将在这里表现出色。显然,在200m比赛中,举重运动员将是灾难性的!

虽然有些琐碎,但上面的示例显示了使用评分规则发生的情况。爱丽丝正在预测预期的冲刺时间。在分类的上下文中,我们预测将概率分类器的错误降至最低的概率。

  • 一个严格的适当的评分规则,如布来得分,那最好成绩只会当我们接近真实的概率尽可能获得担保。
  • 一个合适的评分规则,如连续位居概率得分(CRPS),并不能保证最好的成绩只有通过分类,其预测是最接近真实的概率来获得。其他候选分类器可能会获得与最佳分类器匹配的CRPS分数。
  • 一个半正确的评分规则,如AUC-ROC,它不仅不能保证最佳的性能将被分类,其预测是最接近真实的概率可以实现,但它也(可能)可能提高通过将预测概率从真实值中移开来确定AUC-ROC的值。然而,在某些条件下(例如,在AUC-ROC中,类别分布是先验已知的),此类规则可以近似为适当的评分规则。Byrne(2016)“ 关于使用经验AUC评估概率预测的说明 ”提出了一些有关AUC-ROC的有趣观点。
  • 诸如准确性之类的不正确的评分规则与我们最初的预测概率尽可能接近真实概率的原始任务几乎没有关系。

正如我们所见,半正确的评分规则并不完美,但也不是完全灾难性的。实际上,它在预测过程中会非常有用!Cagdas Ozgenc 在这里有一个很好的例子其中使用不正确/半适当的规则比严格适当的规则更可取。通常, 半适当评分规则一词不是很常见。它与可能会有所帮助的不正确规则相关联(例如,概率分类中的AUC-ROC或MAE)。

最后,请注意一些重要的事项。由于短跑与强壮的双腿有关,因此正确性与概率的正确分类也是如此。优秀的短跑运动员不太可能拥有弱腿,同样,好的分类器也不太可能具有差的准确性。但是,将“准确度”与良好的分类器性能等同于“将腿部力量与良好的短跑性能等同”。并非完全没有根据,但很可能导致无意义的结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.