ROC与精度和召回曲线


159

我了解它们之间的形式差异,我想知道的是何时使用一种相对于另一种更为相关。

  • 他们是否总是提供有关给定分类/检测系统性能的补充见解?
  • 例如,何时在纸上同时提供它们?而不只是一个?
  • 是否有其他替代(可能更现代)的描述符捕获分类系统的ROC和精确召回的相关方面?

我对二进制和多类(例如一对一)案例的参数都感兴趣。


7
本文只应出现在上下文中:biostat.wisc.edu/~page/rocpr.pdf

2
我可能会用它作为“插头”在这里提及自己的论文...在Leitner(2012)中,我提出了“ F测量的平均精度”(FAP)度量标准(请参阅第65页)作为F-的谐波均值。测量和平均精度。即,一组评估指标与排名评估指标的组合。在论文中,我证明了在训练集上最大化FAP分数可用于确定最佳界限,以界定其他方面无限制的信息检索任务(使用100多次BioCreative运行!)。
fnl

1
这是关于不平衡数据集上的AUC-ROC和PR曲线的另一个很好的讨论。它与dsimcha所说的结论相同。当您更关心这种罕见情况时,应该使用PR。
YC

Answers:


207

关键区别在于,无论基线概率是多少,ROC曲线都是相同的,但PR曲线在实践中对于大海捞针型问题或“正”类比负类更有趣的问题可能更有用。类。

为了说明这一点,首先让我们以一种非常好的方法来定义精度,召回率和特异性。假设您有一个名为1的“正”类和一个名为0的“负”类。 是对真实类标签估计。然后: 要注意的关键是灵敏度/召回率和特异性组成ROC曲线的概率以真实的类别标签条件。因此,无论是多少,它们都是相同的。精度是基于概率的 ÿY^Y PÝ=1PÝ=1

Precision=P(Y=1|Y^=1)Recall=Sensitivity=P(Y^=1|Y=1)Specificity=P(Y^=0|Y=0)
P(Y=1)您对类别标签的估计,因此,如果您在具有不同基线不同人群中尝试使用分类器,则估计值将有所不同。但是,如果您只关心一个已知背景概率的人群,并且“正”类比“负”类有趣得多,那么在实践中它可能会更有用。(在这种情况下,IIRC精度在文档检索领域很流行。)这是因为它直接回答了以下问题:“如果我的分类器说这是真正的命中,那么该概率是多少?”P(Y=1)

有趣的是,根据贝叶斯定理,您可以算出同时特异性很高和精度很低的情况。您所要做的就是假设非常接近零。在实践中,当在DNA序列干草堆中寻找针头时,我已经开发了几种具有这种性能特征的分类器。P(Y=1)

恕我直言,写论文时,您应该提供能回答您要回答的问题的曲线(或者,如果您愤世嫉俗的话,则更适合您的方法)。如果您的问题是:“ 鉴于问题的基线概率,分类器的积极结果有多有意义?”,请使用PR曲线。如果您的问题是:“ 在各种不同的基准概率下,该分类器的总体表现如何?”,请使用ROC曲线。


9
那是一个很棒的解释!
Amelio Vazquez-Reina

4
+1,对精度,召回率和特异性的概率解释有深刻的见解。
Zhubarb 2015年

1
真是个答案!希望我能两次投票通过。
伦敦家伙

6
万一我以前的评论还不清楚,以防万一:这个答案是错误的,使用特异性的ROC曲线也是如此。参见例如ROC分析简介,它也暗示了我的答案中记录的缺点:“许多现实世界域都由大量否定实例主导,因此ROC图最左侧的性能变得更有趣的。”
fnl

2
+0.5 @fnl。虽然没有明确地错,但我认为答案缺少了问题的要点。概率解释是非常受欢迎的,但是对于核心问题而言,这是没有意义的。此外,我无法提出一个通用的现实示例,该问题不适用:“ 鉴于我的问题的基线概率,我的分类器的正面结果有多有意义? ”。ROC-AUC 的“ 一般 ”观点太模糊了。(不用说,无论是应在面值被用来构建最终模型)
usεr11852

26

这是Davis&Goadrich 的一篇论文的结论,该结论解释了ROC和PR空间之间的关系。他们回答了前两个问题:

首先,对于任何数据集,给定算法的ROC曲线和PR曲线都包含相同的点。这种等价性导致了令人惊讶的定理:当且仅当曲线在PR空间中占优势时,曲线才在ROC空间中占优势。其次,作为该定理的推论,我们证明了ROC空间中凸壳类似的PR空间的存在,我们称之为可实现的PR曲线。值得注意的是,在构建可实现的PR曲线时,会丢弃ROC空间中凸包遗漏的完全相同的点。因此,我们可以有效地计算可获得的PR曲线。[...]最后,我们表明优化ROC曲线下面积的算法不能保证优化PR曲线下面积。

换句话说,原则上,ROC和PR同样适合比较结果。但是对于以20次命中和1980次错失为结果的示例案例,它们表明差异可能相当大,如图11和12所示。

戴维斯和戈德里奇的图11和图12

结果/曲线(I)描述了一个结果,其中20个匹配中的10个位于前十名中,然后其余10个匹配平均分布在前1500个中。Resut(II)描述了一个结果,其中20个匹配项平均分布在前500个(2000个中)排名中。因此,在像“ I”这样的结果“形状”更好的情况下,这种偏好在PR空间中是明显可区分的,而两个结果的AUC ROC几乎相等。


1
这些图没有反映(离散化)所描述的情况,它会在每次遇到命中时(在曲线I的前10个之后)显示ROC曲线中的步骤。ROCCH在凸包中看起来像这样。同样,对于PR,每次将精确度定义为0时(0 / 0)-所示的曲线II是最大精度,而不是每个阈值(因此调用)水平的精度。
David MW Powers

1
这实际上是我发现的论文版本中的图7。本文实际上是使用ROC曲线对PR曲线进行插值的。请注意,支配结果依赖于这样的假设:召回率不为零,直到找到第一个匹配项时才如此,而精确度(如本文中所定义)直到那时才被正式定义为(0/0)。
David MW Powers

1
是的,问题是缺乏正确的离散化(尽管如果对大量运行进行平均,可能会出现类似的情况)。但是,由于存在不确定性问题,论文的结果没有您期望的有意义,并且不如您仅在重新缩放方面了解结果时所期望的重要。我从不使用PR,但有时会扩展到ROC或等效地使用PN。
David MW Powers

1
首先,图7的曲线图(11对12)是不相关的-它们不是经过训练的系统的阶梯图(正例超过了降低阈值),但是当不同系统的数目接近无限时对应于极限平均值。Second Precision和Recall被指定用于网络搜索,并且都完全忽略了(假设为大数)真阴性(Prec = TP / PP和Rec = TP / RP)。第三,“精确度和召回率”图实际上只是显示了特定TP水平的倒数偏差(1 / PP)与倒数发生率(1 / RP)(如果您以TP正确的点击率停止了网络搜索)。
David MW Powers

5
好的,因此,在清除了所有疑问之后,我认为有必要建议读者,我认为@DavidMWPowers的答案应该比我的更可取。
fnl

12

关于评估有很多误解。部分原因来自机器学习方法,该方法试图优化数据集上的算法,而对数据没有真正的兴趣。

在医学背景下,这是关于现实世界的结果-例如,您死了多少人。在医学环境中,灵敏度(TPR)用于查看正确拾取了多少阳性病例(最小化作为假阴性的漏诊比例= FNR),而特异性(TNR)用于查看正确识别了多少阴性病例消除(最小化为假阳性= FPR的比例)。有些疾病的患病率为百万分之一。因此,如果您始终预测为负,则精度为0.999999-这是通过简单的ZeroR学习器实现的,该学习器仅预测最大等级。如果我们考虑召回率和精确度来预测您没有疾病,那么对于ZeroR,我们具有Recall = 1和Precision = 0.999999。当然,如果您反转+ ve和-ve并尝试使用ZeroR来预测某人患有疾病,您将获得Recall = 0和Precision = undef(因为您甚至没有做出积极的预测,但是在这种情况下,人们通常将Precision定义为0案件)。请注意,始终定义了调用(+ ve调用)和逆调用(-ve调用),以及相关的TPR,FPR,TNR和FNR,因为我们只处理此问题,因为我们知道有两类可以区分,因此我们故意提供每个例子。

请注意,在医学背景下遗漏癌症(有人死亡并被起诉)与在网络搜索中遗漏一篇论文之间存在巨大差异(如果其中一项很重要,其他人很可能会引用该文献)。在这两种情况下,相对于大量的负数,这些错误的特征都是假负数。在网络搜索的情况下,仅由于我们仅显示少量结果(例如10或100),而没有显示就不应该被当作负面预测(可能是101个),因此我们将自动获得大量真实的负面信息),而在癌症测试案例中,每个人都有一个结果,而与网络搜索不同,我们会主动控制假阴性水平(发生率)。

因此,洛克(ROC)正在探索真阳性(相对于假阴性占真阳性的比例)和假阳性(相对于真阴性占真阴性的比例)之间的折衷。等效于比较灵敏度(+ ve调用)和特异性(-ve调用)。在绘制TP与FP而不是TPR与FPR的地方,还有一个PN图看起来是相同的-但是由于我们将图绘制成正方形,所以唯一的区别是放在刻度上的数字。它们通过常数TPR = TP / RP,FPR = TP / RN进行关联,其中RP = TP + FN和RN = FN + FP是数据集中的实数正数和实数负数,反之则偏移PP = TP + FP和PN = TN + FN是我们预测为正或预测为负的次数。注意,我们称rp = RP / N和rn = RN / N为阳性反应的发生率。负,pp = PP / N,rp = RP / N,表示正向偏差。

如果我们对敏感度和特异性求和或求平均值,或者查看权衡曲线下的面积(相当于ROC只是反转x轴),如果我们互换+ ve和+ ve的类,我们将得到相同的结果。对于“精确度”和“召回率”而言,情况并非如此(如上用ZeroR进行的疾病预测所示)。这种任意性是Precision,Recall及其平均值(无论是算术,几何还是谐波)和权衡图的主要缺陷。

随着系统参数的更改,绘制了PR,PN,ROC,LIFT和其他图表。经典地为每个受过训练的系统绘制点,通常通过增加或减小阈值来更改将实例分类为正与负的点。

有时,绘制的点可能是以相同方式(但使用不同的随机数或采样或排序)训练的系统集(变化的参数/阈值/算法)的平均值。这些是理论构造,它们告诉我们有关系统的平均行为,而不是它们在特定问题上的性能。权衡图旨在帮助我们为特定应用(数据集和方法)选择正确的工作点,而这正是ROC取名的地方(“接收器工作特性”旨在在知情的情况下最大化接收到的信息)。

让我们考虑可以绘制哪些召回率或TPR或TP。

TP vs FP(PN)-看起来与ROC图完全一样,只是数字不同

TPR与FPR(ROC)-如果将+/-颠倒,则带有AUC的FPR对FPR不变。

TPR vs TNR(alt ROC)-ROC的镜像为TNR = 1-FPR(TN + FP = RN)

TP vs PP(LIFT)-X incs用于正例和负例(非线性拉伸)

TPR与pp(alt LIFT)-看起来与LIFT相同,只是数字不同

TP vs 1 / PP-与LIFT非常相似(但随着非线性拉伸而反转)

TPR vs 1 / PP-看起来与TP vs 1 / PP相同(y轴上的数字不同)

TP vs TP / PP-相似,但具有x轴扩展(TP = X-> TP = X * TP)

TPR与TP / PP-外观相同,但轴上的数字不同

最后是召回与精准!

请注意,对于这些图形,在其他变换之后,主导其他曲线的曲线(在所有点上都更好或至少一样高)仍将占主导地位。由于控制在每个点上都意味着“至少一样高”,因此较高的曲线还具有“至少一样高”的曲线下面积(AUC),因为它还包括曲线之间的面积。反之则不成立:如果曲线相交而不是接触,则没有优势,但是一个AUC仍然可以大于另一个。

所做的所有转换都是以不同(非线性)方式反射和/或缩放ROC或PN图的特定部分。但是,只有ROC可以很好地解释“曲线下的面积”(正值高于负值的概率-Mann-Whitney U统计量)和“曲线下的距离”(做出明智决定而不是猜测的概率-Youden J统计信息)。

通常,不需要使用PR折衷曲线,如果需要详细信息,则可以简单地放大ROC曲线。ROC曲线具有独特的属性,对角线(TPR = FPR)表示机会,机会线(DAC)上方的距离表示信息或明智决策的可能性,曲线下面积(AUC)表示等级或正确的成对排名的可能性。这些结果并不适用于PR曲线,并且如上所述,较高的Recall或TPR会使AUC失真。PR AUC变大不会 暗示ROC AUC较大,因此并不意味着提高排名(正确预测排名+/-对的概率,即预测+ ves高于-ves的频率),也不意味着提高知情度(明智的预测的概率而不是随机猜测-即做出预测时知道自己在做什么的频率)。

抱歉-没有图表!如果有人想添加图表来说明上述转换,那就太好了!我的论文中确实有很多关于ROC,LIFT,BIRD,Kappa,F量度,信息化等的文章,但是尽管https中有ROC,LIFT,BIRD,RP的插图,但它们并没有以这种方式呈现。://arxiv.org/pdf/1505.00401.pdf

更新:为避免试图在冗长的答案或评论中给出完整的解释,这是我的一些论文“发现” Precision vs Recall权衡公司的问题。F1,获取信息,然后“探索”与ROC,Kappa,重要性,DeltaP,AUC等的关系。这是我20年前遇到的一个问题(Entwisle),此后有很多人发现了现实世界中的例子他们自己的地方有经验证明,R / P / F / A方法向学习者发送了错误的方式,而信息性(在适当情况下为Kappa或相关性)向学习者发送了正确的方式-现在遍及数十个领域。其他作者在Kappa和ROC上也有很多不错的相关论文,但是当您使用Kappas与ROC AUC与ROC Height(Informedness或Youden' J)在2012年我的论文列表中得到了澄清(其中许多重要的论文也被引用)。2003年的Bookmaker论文首次为多类案例推导了一个“知性”公式。2013年的论文得出了Adaboost的多类版本,该版本适用于优化信息性(带有指向托管和运行它的经修改的Weka的链接)。

参考文献

1998年统计数据在NLP解析器评估中的应用。DMW Powers J Entwisle-语言处理新方法联合会议论文集:215-224 https://dl.acm.org/citation.cfm?id=1603935 被15引用

2003年Recall&Precision与Bookmaker。DMW Powers-国际认知科学会议:529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 被46引用

2011年评估:从精度,召回率和F度量到ROC,信息,标记和相关性。DMW Powers-机器学习技术杂志2(1):37-63。 http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 被1749引用

2012 Kappa问题。DMW Powers-第13届欧洲ACL会议论文集:345-355 https://dl.acm.org/citation.cfm?id=2380859 被63引用

2012 ROC-ConCert:基于ROC的一致性和确定性度量。DMW Powers-春季工程技术大会(S-CET)2:238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf 被5引用

2013 ADABOOK和MULTIBOOK::带有机会校正的自适应增强。DMW Powers-ICINCO控制,自动化和机器人信息学国际会议 http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

被4引用


>“曲线下面积代表Rankedness或正确配对排名的可能性:”我想,这正是我们不同意-中华民国仅演示质量排名中的情节。但是,使用AUC PR时,只有一个数字会立即告诉我哪个排名更可取(即,结果I优于结果II)。AUC ROC没有此属性。
fnl

引用结果表示当定义时,如果一条曲线在ROC中占主导地位,则在PR中占优势,反之亦然,这意味着两条曲线的面积也都较大,因此ROC和PR AUC之间没有定性差异。关于排名的报价(Mann-Whitney U)是一个公认的定量结果再概率(显着性检验的一部分),被推荐为完全独立于ROC,但后来被发现为ROC AUC。同样,“信息性”最初是独立定义的,后来被证明与ROC工作点的高度相对应。PR没有这样的结果。
David MW Powers

1
正如我之前说过的,这只是在支配条件下进行扩展(“大得多”,因为我乘以详细解释乘以一个大数字),但是在非支配条件下,AUC PR会产生误导,而AUC ROC就是一个具有适当的概率解释(Mann-Whitney U或Rankedness),单个工作点的情况对应于Gini(或换算后等效的Youden J或Informedness)。
David MW Powers

1
如果我们为简单起见考虑单个工作点(SOC)AUC,则基尼系数= AUC =(TP / RP + TN / RN)/ 2,信息性= Youden J = TP / RP + TN / RN-1 =灵敏度+特异性-1 = TPR + TNF -1 =召回+反向召回-1等。最大化是等效的,但后者是明智决策的概率(故意将其设为-ve是错误的)。如果RN和TN都用TN >> FP达到无穷大,则TN / RN-> 1并取消,因此在您引用的情况下,Informedness = Recall。相反,如果巨大类是RP和TP >> FN,则TP / RP-> 1且Informedness = Inverse Recall。参见参考。
David MW Powers

1
这是David Powers的非常有用的答案。但是请原谅我的无知,当您说:“一般而言,不需要使用PR权衡曲线,如果需要详细信息,您可以放大到ROC曲线。”,我该怎么做,您能提供更多吗?关于你的意思的细节?这是否意味着我可以在某种程度上严重失衡的情况下使用ROC曲线?“给FPR或TPR更大的重量会产生AUC ROC分数,结果差异更大,得分极高!” 那我怎么用我的中华民国来做呢?
克里斯托弗·约翰
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.