如何得出AUC的概率解释?


14

为什么ROC曲线下的面积使分类器(从检索到的预测中)对随机选择的“正”实例进行排序的概率高于(从原始正分类中)随机选择的“正”实例的概率?如何用积分从数学上证明这一说法,使CDF和PDF具有真实的正负类分布?


2
:我写这这里的一个非常基本的证明madrury.github.io/jekyll/update/statistics/2017/06/21/...
马修·特鲁

Answers:


10

首先,让我们尝试正式定义ROC曲线下的面积。一些假设和定义:

  • 我们有一个概率分类器,输出一个“分数” s(x),其中x是特征,而s是估计概率p(class = 1 | x)的一般递增单调函数。

  • Fķs,其中:= k类分数的pdf,CDF为ķ={01个}Fķs

  • 将得分s与阈值t进行比较,即可获得新观察值的分类

此外,为了数学上的方便,让我们考虑正类(检测到事件)k = 0,而负k =1。在此设置中,我们可以定义:

  • 召回率(又名敏感性,又称TPR):(分类为阳性的阳性病例的比例)F0Ť
  • 特异性(又名TNR):(被归类为阴性的阴性病例的比例)1个-F1个Ť
  • FPR(又称辐射):1- TNR =F1个Ť

ROC曲线就是F 1t )的曲线 。设置v = ˚F 1小号中,我们可以在形式上定义的区域中的ROC曲线下: Ù Ç = 1 0 ˚F 0˚F - 1 1v d v 改变变量(d v = ˚F 1小号d 小号F0ŤF1个Ťv=F1个s

一种üC=01个F0F1个-1个vdv
dv=F1个sds):
一种üC=-F0sF1个sds

可以容易地将此​​公式视为类别0的随机抽取成员的得分低于类别1的随机抽取成员的得分的概率。

该证明来自:https : //pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf


5

@alebu的答案很好。但是它的表示法是非标准的,对于正类使用0,对负类使用1。以下是标准符号的结果(否定类别为0,肯定类别为1):

否定类别的分数的Pdf和cdf:F0sF0s

阳性班级得分的Pdf和cdf:F1个sF1个s

FPR = Xs=1个-F0s

TPR = ÿs=1个-F1个s

AUC=01个ÿXdX=01个ÿXτdXτ=+-ÿτXτdτ=+-1个-F1个τ-F0τdτ=-+1个-F1个τF0τdτ

τ


1

τ

  1. 一种
  2. 一种
  3. τ

P一种>τP>τ

τ一种üC

我们得到:

一种üC=01个ŤP[RXdX=01个P一种>τXdX
XXŤP[R

(1)一种üC=ËX[P一种>τX]
Xü[01个

XFP[R

X=FP[R=P>τX
X

P>τXü
=>P<τX1个-üü
(2)=>FτXü

XFXÿüÿX

FXX=PFXX<X=PX<FX-1个X=FXFX-1个X=X

τX

将其代入公式(1),我们得到:

一种üC=ËXP一种>=P一种>

换句话说,曲线下方的面积是随机正样本比随机负样本具有更高分数的概率。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.