解释PR曲线下的面积


10

我目前正在比较三种方法,并且我以Accuracy,auROC和auPR作为指标。我有以下结果:

方法A-acc:0.75,auROC:0.75,auPR:0.45

方法B-acc:0.65,auROC:0.55,auPR:0.40

方法C-acc:0.55,auROC:0.70,auPR:0.65

我对准确性和auROC有很好的理解(要记得很好,我经常想出一个句子,例如“ auROC =很好地表征预测阳性学生的能力”,而并非完全正确的话可以帮助我记住)。我从来没有过auPR数据,而在我了解它是如何构建的时,我无法理解它的背后。

实际上,我无法理解为什么方法C的auPR得分非常高,而准确性和auPR却差/平均。

如果有人能通过简单的解释帮助我更好地理解它,那将是非常不错的。谢谢。

Answers:


11

ROC和PR曲线的一条轴相同,即TPR:在数据中所有阳性病例中正确分类了多少阳性病例。

另一个轴不同。ROC使用FPR,即数据中所有负数中错误地声明了正数的FPR。PR曲线使用精度:在所有预测为正数的真实正数中。因此,第二个轴的基准是不同的。ROC使用数据中的内容,PR使用预测中的内容作为基础。

当数据中存在高度不平衡时,PR曲线被认为可以提供更多信息,请参阅本文http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf


1
对于auROC 0.5是最小值(因为通过反转谓词会更好)。auPR是否有一些类似的规则?还有关于我的测量:通过查看方法C的得分我能断言什么?因为我在3种情况下使用相同的数据集,并且从我的角度来看,对于在类之间或多或少均匀分布的数据集,所以auROC和auPR对我的排名不相同是没有道理的方法。
AdrienNK 2014年

1
auPR中的随机分类器分数是多少?我知道在auROC中是0.5,但在auPR中我不知道。
杰克吐温2014年

9
随机分类器的预期auPR分数只是数据集中真实阳性病例的比例。这是您猜测班级时期望的精度,并且可以在所有召回级别上获得该精度。因此,随机分类器的预期PR曲线仅为边长为“正阳性比例” x 1的矩形。例如,如果您的数据集包含10%的阳性病例和90%的阴性病例,则偶然的预期auPR为0.1。
里兹·西尔弗
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.