为什么AUC = 1甚至分类器对一半样本进行了错误分类?


20

我正在使用一个返回概率的分类器。为了计算AUC,我使用了pROC R-package。分类器的输出概率为:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probs显示出现“ 1”级的可能性。如图所示,分类器已将所有样本分类为“ 1”类。

真实标签向量为:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

如图所示,分类器对5个样本进行了错误分类。但是,AUC是:

pROC::auc(truel, probs)
Area under the curve: 1

你能告诉我为什么会发生吗?


Answers:


21

AUC是根据类成员资格的概率对示例进行排名的一种度量。因此,如果所有概率都大于0.5,并且所有正模式都比所有负模式都具有更高的概率,那么您仍然可以拥有一个AUC。在这种情况下,决策阈值将高于0.5,这将使错误率达到零。请注意,由于AUC仅测量概率的等级,因此它不会告诉您是否对概率进行了很好的校准(例如,没有系统的偏差),如果概率的校准很重要,则请查看交叉熵度量。


21

其他答案解释了发生了什么,但我认为图片可能不错。

您会看到类别完全分开,因此AUC为1,但将阈值设为1/2将产生50%的错误分类率。

概率


21

样本根本没有被“错误分类”。该0例子比排名较低的严格1例子。AUROC完全按照其定义执行操作,这是衡量随机选择1的排名高于随机选择的概率0。在此示例中,这始终是正确的,因此这是一个概率为1的事件。

汤姆·福塞特(Tom Fawcett)撰写了一篇有关ROC曲线的精彩说明文章。我建议从那里开始。

汤姆·福塞特。“ ROC分析简介。” 模式识别字母。2005。


3
+1 Fawcett论文确实是一个很好的起点。
迪克兰有袋动物博物馆,2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.