ROC曲线下面积与整体精度


29

关于ROC的曲线下面积(AUC)和整体精度,我有些困惑。

  1. AUC是否与整体精度成正比?换句话说,当我们具有更高的整体精度时,我们肯定会获得更大的AUC吗?还是按照定义它们是正相关的?

  2. 如果它们是正相关的,为什么我们还要在某些出版物中同时报告它们呢?

  3. 在实际情况下,我执行了一些分类任务,结果如下:分类器A的准确度为85%,AUC为0.98,分类器B的准确度为93%,AUC为0.92。问题是,哪个分类器更好?还是有可能获得类似的结果(我的意思是说我的实现中可能存在错误)?


1
我发现一篇论文可能对某些人有些兴趣。google.co.uk/...
萨莫Jerom

因为我们在AUC量度中计算假阳性率而我们不计算准确度,所以AUC不应小于整体准确度吗???
2014年

当类的大小不同时,ROC AUC很有用。如果99%的物体为正,则通过随机采样可获得99%的精度。这样,ROC AUC值将更有意义。
Anony-Mousse 2014年

Answers:


26

AUC(基于ROC)和整体准确性似乎不是同一概念。

总体精度基于一个特定的切割点,而ROC会尝试所有切割点并绘制灵敏度和特异性。因此,当我们比较整体精度时,我们是基于某个临界点来比较精度。总体精度因切割点而异。


2
非常感谢您的回复!我了解总体精度是从某些切割点(或阈值)获得的。但是,有一个最佳的切点,即最靠近左上角的一个。例如,我的总体准确度是使用此最佳截止点计算的,而AUC适用于所有不同的截止点。那么如何解释这种准确性和AUC?例如,我上面提到的两个分类器的性能。
萨莫(Samo Jerom)2013年

3
哦,我懂了。您正在比较最佳总体精度和AUC。但是它们仍然是不同的概念。AUC是P(预测TRUE |实际TRUE)vs P(FALSE | FALSE),而总体准确度是P = P(TRUE | TRUE)* P(实际TRUE)+ P(FALSE | FALSE)* P(实际FALSE)。因此,这很大程度上取决于数据集上真实值的比例。实际上,似乎通常在切点接近P(actual TRUE)时可获得最佳的整体精度。
文森特

因此,取决于数据集真实值的比例,AUC和最佳总体精度可能不一致。在您的情况下,似乎其中一个分类器更侧重于敏感性,而另一个则侧重于特异性。并且在您当前的数据集上,P(TRUE)不是50%。因此,灵敏度和特异性通过不同的权重有助于提高总体准确性。在实践中,中华民国可为我们提供更多信息,我们希望根据具体情况选择分类。例如,垃圾邮件分类器可能会更关注P(而非垃圾邮件),以防止丢失重要的电子邮件。
文森特

感谢您的回答。现在更清楚了。但是,如果有人想讨论更多内容,请在此处发布。
萨莫(Samo Jerom)2013年

27

虽然这两种统计量可能很相关,但是它们衡量的是分类器的不同质量。

奥罗克

曲线下的面积(AUC)等于分类器将随机选择的正例的排名高于随机选择的负例的概率。它衡量的分类技能等级一套根据它们所属的正班程度的图案,但没有真正的类分配模式。

总体准确性还取决于分类器对样式进行排名的能力,还取决于其在排名中选择阈值的能力,如果该阈值高于阈值,则该阈值用于将样式分配给正类别,如果低于阈值,则将其分配给负类别。

因此,具有较高AUROC统计量(所有条件都相同)的分类器也可能具有较高的总体准确度,因为模式排名(AUROC测量)对AUROC和整体准确度均有利。但是,如果一个分类器对模式进行很好的排序,但选择阈值很差,则其AUROC可能很高,但总体准确性很差。

实际使用

实际上,我喜欢收集总体准确性,AUROC以及分类器是否估计类成员的概率,交叉熵或预测性​​信息。然后,我有一个度量标准,可以度量其执行硬分类的原始能力(假设错误肯定和错误否定错误的分类成本相等,并且样本中的分类频率与实际使用中的分类频率相同,这是一个很大的假设!),衡量模式排名能力的度量标准和衡量对排名进行校准的概率的度量标准。

对于许多任务,操作错误分类成本是未知的或可变的,或者操作类别的频率与训练样本中的频率不同或是可变的。在这种情况下,总体准确性通常是毫无意义的,并且AUROC是更好的性能指标,并且理想情况下,我们希望使用分类器输出经过良好校准的概率,以便我们可以在操作使用中弥补这些问题。本质上,哪个指标很重要取决于我们要解决的问题。


迪克兰,您的第一段有参考文献吗?
Bunder

@Bunder不是直接发生的,AUROC是随机选择的+ ve模式比随机选择的-ve模式(en.wikipedia.org/wiki/…)排名更高的概率,因此是排名质量的度量,因为我们希望该概率尽可能高。
迪克兰有袋博物馆,2016年

5

AUC真的是非常有用的指标吗?

我想说预期成本是更合适的措施。

那么,对于所有误报,您将拥有成本A;对于所有误报,您将拥有成本B。可能很容易导致其他类别相对比其他类别更昂贵。当然,如果您在各个子组中为错误分类付出了代价,那么它将是更强大的指标。

通过在x轴上绘制截止点,然后在y轴上绘制期望成本,您可以看到哪个截止点使期望成本最小化。

形式上,您有一个损失函数Loss(cut | off,data,cost),您尝试将其最小化。


3
仅当您知道假阳性和假阴性成本时才可以评估预期成本,这对于计算AUC并不是必须的,如果成本未知或可变,这是一个很好的统计数据。
迪克兰有袋博物馆,2013年

4

就像所有答案都已发布一样:ROC并且accuracy是两个基本概念。

一般而言,ROC描述了与类别分布和不相等的预测误差成本(假正成本和假负成本)无关的分类器的判别力。

像这样的度量标准accuracy是基于test dataset或的类分布来计算的cross-validation,但是当您将分类器应用于实际数据时,该比率可能会更改,因为基础类的分布已更改或未知。在另一方面,TP rateFP rate这是用来构建体AUC将不被类别分布偏移的影响。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.