使用AUC的理由?


10

特别是在机器学习文献的面向计算机科学的方面,AUC(接收方操作员特征曲线下的区域)是评估分类器的常用标准。使用AUC有什么理由?例如,是否存在一个特定的损失函数,其最佳决策是具有最佳AUC的分类器?


1
AUC是损失函数,很明显,对于该损失函数,最佳决策是具有最佳AUC的分类器。
罗宾吉拉德2011年

1
@robingirard不,不是,因为它不可区分,即您不能直接对其进行优化。
cpury

Answers:


15

用于二元分类用于排序(即,对于每个实施例ë我们有Ç ê 在区间[ 0 1 ])从其中AUC测定的AUC相当于概率Ç Ë 1> C ^ e 0,其中e 1是真实的肯定例子,而e 0是真实的否定例子。因此,选择具有最大AUC的模型可以最大程度地降低C e 0CeC(e)[0,1]C(e1)>C(e0)e1e0。即,使对真阴性的评级至少与真阳性一样大的损失最小化。C(e0)C(e1)


0

让我们举一个简单的例子,从好坏番茄中识别出好番茄。假设好番茄的数量为100,而坏番茄的数量为1000,所以总数为1100。现在您的工作是尽可能多地识别好番茄。一种获取所有优质番茄的方法是同时摄取1100个番茄。但它清楚地表明,您无法区分b / n好与坏

所以,什么是区分差异的正确方法-需要同时拾取很少的坏样品就获得尽可能多的好样品,所以我们需要一个衡量标准,可以说出我们选出了多少好样品,还说出什么是坏样品它。如下所示,如果AUC度量值能够选择更多的好点,而很少的坏点,则可以赋予更多的权重。这说明您能够区分好坏的好坏。

在示例中,您可以观察到在拾取70%的优质番茄时,黑色曲线拾取了48%的不良(杂质),而蓝色曲线则有83%的不良(杂质)。因此,与蓝色曲线相比,黑色曲线具有更好的AUC得分。 在此处输入图片说明


这如何回答这个问题?
维维克(Vivek Subramanian)

我用AUC的直觉写到,它有助于在确定总体得分(在二进制分类中为1)的同时给出单个分数,同时减少了误报的数量。帮帮我,我该如何做得更好。
yugandhar
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.