AUC是否有可能正确分类每个类别中随机选择的实例?


11

我在纸上阅读了此标题,但从未在其他地方看到过这种方式描述的AUC。这是真的?有没有证明或简单的方法可以看到这一点?

图2显示了根据接收器工作特性曲线(AUC)下的面积表示的二分变量的预测精度,这相当于正确地将每个类别中的两个随机选择的用户正确分类的概率(例如,男性和女性) )。

在我看来,这不是真的,因为对于AUC = 0.5,以上内容表明一个人有50%的概率连续两次正确预测一次硬币翻转,但实际上,您只有25%的机会正确预测连续两次硬币翻转的过程。至少,我就是这么想的。


1
我理解标题中表达的概念无论如何都不是正确的,但为了与引用匹配,它不应该说“正确分类的可能性...”而不是仅仅“分类的可能性”吗?第一次阅读时,这让我感到困惑。
银鱼

1
已经足够长的标题了!我实际上考虑过添加“正确地”相信与否。:)
thecity2

Answers:


14

报价略有不正确。正确的说法是,ROC AUC是随机选择的阳性示例比随机选择的阴性示例获得更高排名的概率。这是由于ROC AUC和等级的Wilcoxon检验之间的关系。

您将在Tom Fawcett的“ ROC分析简介 ”插图中找到讨论内容。


8

作者的描述并不完全准确。ROC曲线下的面积实际上等于随机选择的阳性样本的风险评分高于随机选择的阴性样本的风险评分的概率。这不一定与分类有任何关系,它只是分数分布之间分离的一种度量。

对于您的硬币示例,假设您有两个硬币,每个硬币都有一个与之相关的分数。然后,您将两个硬币都翻转,直到一个出现在正面,另一个出现在背面(因为我们以不同的结果为条件)。这等效于具有随机评分的模型,出现的硬币具有较高(或较低)分数的概率为1/2。


2

尽管我不喜欢它的措辞,但您阅读的描述是正确的。ROC(AUC)曲线下的面积是将随机的个体对正确分类为2类中的1类的可能性。这是一种基于等级的统计数据,因此,如果您必须猜测一对中的一个个体的等级是否高于另外,如果随机猜测,则只有50%的机会。AUC与Wilcoxon符号秩检验统计量相同[1],可以用来说明其含义。

[1]:Mason&Graham(2002)。相对运行特征(ROC)和相对运行水平(ROL)曲线下方的区域:统计意义和解释。皇家气象学会季刊。128:2145–2166。


1

正如其他人指出的那样,AUC表示从阳性分类中随机选择的示例从分类器​​中获得比从阴性分类中随机选择的示例获得更高分数的概率。

有关此属性的证明,请参见: 如何导出AUC的数学公式?

或用于该答案的来源:D. Hand,2009年,衡量分类器性能:ROC曲线下面积的一致替代方案

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.