关于ROC的曲线下面积(AUC)和整体精度,我有些困惑。
AUC是否与整体精度成正比?换句话说,当我们具有更高的整体精度时,我们肯定会获得更大的AUC吗?还是按照定义它们是正相关的?
如果它们是正相关的,为什么我们还要在某些出版物中同时报告它们呢?
在实际情况下,我执行了一些分类任务,结果如下:分类器A的准确度为85%,AUC为0.98,分类器B的准确度为93%,AUC为0.92。问题是,哪个分类器更好?还是有可能获得类似的结果(我的意思是说我的实现中可能存在错误)?
关于ROC的曲线下面积(AUC)和整体精度,我有些困惑。
AUC是否与整体精度成正比?换句话说,当我们具有更高的整体精度时,我们肯定会获得更大的AUC吗?还是按照定义它们是正相关的?
如果它们是正相关的,为什么我们还要在某些出版物中同时报告它们呢?
在实际情况下,我执行了一些分类任务,结果如下:分类器A的准确度为85%,AUC为0.98,分类器B的准确度为93%,AUC为0.92。问题是,哪个分类器更好?还是有可能获得类似的结果(我的意思是说我的实现中可能存在错误)?
Answers:
AUC(基于ROC)和整体准确性似乎不是同一概念。
总体精度基于一个特定的切割点,而ROC会尝试所有切割点并绘制灵敏度和特异性。因此,当我们比较整体精度时,我们是基于某个临界点来比较精度。总体精度因切割点而异。
虽然这两种统计量可能很相关,但是它们衡量的是分类器的不同质量。
奥罗克
曲线下的面积(AUC)等于分类器将随机选择的正例的排名高于随机选择的负例的概率。它衡量的分类技能等级一套根据它们所属的正班程度的图案,但没有真正的类分配模式。
总体准确性还取决于分类器对样式进行排名的能力,还取决于其在排名中选择阈值的能力,如果该阈值高于阈值,则该阈值用于将样式分配给正类别,如果低于阈值,则将其分配给负类别。
因此,具有较高AUROC统计量(所有条件都相同)的分类器也可能具有较高的总体准确度,因为模式排名(AUROC测量)对AUROC和整体准确度均有利。但是,如果一个分类器对模式进行很好的排序,但选择阈值很差,则其AUROC可能很高,但总体准确性很差。
实际使用
实际上,我喜欢收集总体准确性,AUROC以及分类器是否估计类成员的概率,交叉熵或预测性信息。然后,我有一个度量标准,可以度量其执行硬分类的原始能力(假设错误肯定和错误否定错误的分类成本相等,并且样本中的分类频率与实际使用中的分类频率相同,这是一个很大的假设!),衡量模式排名能力的度量标准和衡量对排名进行校准的概率的度量标准。
对于许多任务,操作错误分类成本是未知的或可变的,或者操作类别的频率与训练样本中的频率不同或是可变的。在这种情况下,总体准确性通常是毫无意义的,并且AUROC是更好的性能指标,并且理想情况下,我们希望使用分类器输出经过良好校准的概率,以便我们可以在操作使用中弥补这些问题。本质上,哪个指标很重要取决于我们要解决的问题。
AUC真的是非常有用的指标吗?
我想说预期成本是更合适的措施。
那么,对于所有误报,您将拥有成本A;对于所有误报,您将拥有成本B。可能很容易导致其他类别相对比其他类别更昂贵。当然,如果您在各个子组中为错误分类付出了代价,那么它将是更强大的指标。
通过在x轴上绘制截止点,然后在y轴上绘制期望成本,您可以看到哪个截止点使期望成本最小化。
形式上,您有一个损失函数Loss(cut | off,data,cost),您尝试将其最小化。