我了解它们之间的形式差异,我想知道的是何时使用一种相对于另一种更为相关。
- 他们是否总是提供有关给定分类/检测系统性能的补充见解?
- 例如,何时在纸上同时提供它们?而不只是一个?
- 是否有其他替代(可能更现代)的描述符捕获分类系统的ROC和精确召回的相关方面?
我对二进制和多类(例如一对一)案例的参数都感兴趣。
我了解它们之间的形式差异,我想知道的是何时使用一种相对于另一种更为相关。
我对二进制和多类(例如一对一)案例的参数都感兴趣。
Answers:
关键区别在于,无论基线概率是多少,ROC曲线都是相同的,但PR曲线在实践中对于大海捞针型问题或“正”类比负类更有趣的问题可能更有用。类。
为了说明这一点,首先让我们以一种非常好的方法来定义精度,召回率和特异性。假设您有一个名为1的“正”类和一个名为0的“负”类。 是对真实类标签估计。然后: 要注意的关键是灵敏度/召回率和特异性组成ROC曲线的概率以真实的类别标签为条件。因此,无论是多少,它们都是相同的。精度是基于概率的 ÿ P(Ý=1)P(Ý=1)
有趣的是,根据贝叶斯定理,您可以算出同时特异性很高和精度很低的情况。您所要做的就是假设非常接近零。在实践中,当在DNA序列干草堆中寻找针头时,我已经开发了几种具有这种性能特征的分类器。
恕我直言,写论文时,您应该提供能回答您要回答的问题的曲线(或者,如果您愤世嫉俗的话,则更适合您的方法)。如果您的问题是:“ 鉴于问题的基线概率,分类器的积极结果有多有意义?”,请使用PR曲线。如果您的问题是:“ 在各种不同的基准概率下,该分类器的总体表现如何?”,请使用ROC曲线。
这是Davis&Goadrich 的一篇论文的结论,该结论解释了ROC和PR空间之间的关系。他们回答了前两个问题:
首先,对于任何数据集,给定算法的ROC曲线和PR曲线都包含相同的点。这种等价性导致了令人惊讶的定理:当且仅当曲线在PR空间中占优势时,曲线才在ROC空间中占优势。其次,作为该定理的推论,我们证明了ROC空间中凸壳类似的PR空间的存在,我们称之为可实现的PR曲线。值得注意的是,在构建可实现的PR曲线时,会丢弃ROC空间中凸包遗漏的完全相同的点。因此,我们可以有效地计算可获得的PR曲线。[...]最后,我们表明优化ROC曲线下面积的算法不能保证优化PR曲线下面积。
换句话说,原则上,ROC和PR同样适合比较结果。但是对于以20次命中和1980次错失为结果的示例案例,它们表明差异可能相当大,如图11和12所示。
结果/曲线(I)描述了一个结果,其中20个匹配中的10个位于前十名中,然后其余10个匹配平均分布在前1500个中。Resut(II)描述了一个结果,其中20个匹配项平均分布在前500个(2000个中)排名中。因此,在像“ I”这样的结果“形状”更好的情况下,这种偏好在PR空间中是明显可区分的,而两个结果的AUC ROC几乎相等。
关于评估有很多误解。部分原因来自机器学习方法,该方法试图优化数据集上的算法,而对数据没有真正的兴趣。
在医学背景下,这是关于现实世界的结果-例如,您死了多少人。在医学环境中,灵敏度(TPR)用于查看正确拾取了多少阳性病例(最小化作为假阴性的漏诊比例= FNR),而特异性(TNR)用于查看正确识别了多少阴性病例消除(最小化为假阳性= FPR的比例)。有些疾病的患病率为百万分之一。因此,如果您始终预测为负,则精度为0.999999-这是通过简单的ZeroR学习器实现的,该学习器仅预测最大等级。如果我们考虑召回率和精确度来预测您没有疾病,那么对于ZeroR,我们具有Recall = 1和Precision = 0.999999。当然,如果您反转+ ve和-ve并尝试使用ZeroR来预测某人患有疾病,您将获得Recall = 0和Precision = undef(因为您甚至没有做出积极的预测,但是在这种情况下,人们通常将Precision定义为0案件)。请注意,始终定义了调用(+ ve调用)和逆调用(-ve调用),以及相关的TPR,FPR,TNR和FNR,因为我们只处理此问题,因为我们知道有两类可以区分,因此我们故意提供每个例子。
请注意,在医学背景下遗漏癌症(有人死亡并被起诉)与在网络搜索中遗漏一篇论文之间存在巨大差异(如果其中一项很重要,其他人很可能会引用该文献)。在这两种情况下,相对于大量的负数,这些错误的特征都是假负数。在网络搜索的情况下,仅由于我们仅显示少量结果(例如10或100),而没有显示就不应该被当作负面预测(可能是101个),因此我们将自动获得大量真实的负面信息),而在癌症测试案例中,每个人都有一个结果,而与网络搜索不同,我们会主动控制假阴性水平(发生率)。
因此,洛克(ROC)正在探索真阳性(相对于假阴性占真阳性的比例)和假阳性(相对于真阴性占真阴性的比例)之间的折衷。等效于比较灵敏度(+ ve调用)和特异性(-ve调用)。在绘制TP与FP而不是TPR与FPR的地方,还有一个PN图看起来是相同的-但是由于我们将图绘制成正方形,所以唯一的区别是放在刻度上的数字。它们通过常数TPR = TP / RP,FPR = TP / RN进行关联,其中RP = TP + FN和RN = FN + FP是数据集中的实数正数和实数负数,反之则偏移PP = TP + FP和PN = TN + FN是我们预测为正或预测为负的次数。注意,我们称rp = RP / N和rn = RN / N为阳性反应的发生率。负,pp = PP / N,rp = RP / N,表示正向偏差。
如果我们对敏感度和特异性求和或求平均值,或者查看权衡曲线下的面积(相当于ROC只是反转x轴),如果我们互换+ ve和+ ve的类,我们将得到相同的结果。对于“精确度”和“召回率”而言,情况并非如此(如上用ZeroR进行的疾病预测所示)。这种任意性是Precision,Recall及其平均值(无论是算术,几何还是谐波)和权衡图的主要缺陷。
随着系统参数的更改,绘制了PR,PN,ROC,LIFT和其他图表。经典地为每个受过训练的系统绘制点,通常通过增加或减小阈值来更改将实例分类为正与负的点。
有时,绘制的点可能是以相同方式(但使用不同的随机数或采样或排序)训练的系统集(变化的参数/阈值/算法)的平均值。这些是理论构造,它们告诉我们有关系统的平均行为,而不是它们在特定问题上的性能。权衡图旨在帮助我们为特定应用(数据集和方法)选择正确的工作点,而这正是ROC取名的地方(“接收器工作特性”旨在在知情的情况下最大化接收到的信息)。
让我们考虑可以绘制哪些召回率或TPR或TP。
TP vs FP(PN)-看起来与ROC图完全一样,只是数字不同
TPR与FPR(ROC)-如果将+/-颠倒,则带有AUC的FPR对FPR不变。
TPR vs TNR(alt ROC)-ROC的镜像为TNR = 1-FPR(TN + FP = RN)
TP vs PP(LIFT)-X incs用于正例和负例(非线性拉伸)
TPR与pp(alt LIFT)-看起来与LIFT相同,只是数字不同
TP vs 1 / PP-与LIFT非常相似(但随着非线性拉伸而反转)
TPR vs 1 / PP-看起来与TP vs 1 / PP相同(y轴上的数字不同)
TP vs TP / PP-相似,但具有x轴扩展(TP = X-> TP = X * TP)
TPR与TP / PP-外观相同,但轴上的数字不同
最后是召回与精准!
请注意,对于这些图形,在其他变换之后,主导其他曲线的曲线(在所有点上都更好或至少一样高)仍将占主导地位。由于控制在每个点上都意味着“至少一样高”,因此较高的曲线还具有“至少一样高”的曲线下面积(AUC),因为它还包括曲线之间的面积。反之则不成立:如果曲线相交而不是接触,则没有优势,但是一个AUC仍然可以大于另一个。
所做的所有转换都是以不同(非线性)方式反射和/或缩放ROC或PN图的特定部分。但是,只有ROC可以很好地解释“曲线下的面积”(正值高于负值的概率-Mann-Whitney U统计量)和“曲线下的距离”(做出明智决定而不是猜测的概率-Youden J统计信息)。
通常,不需要使用PR折衷曲线,如果需要详细信息,则可以简单地放大ROC曲线。ROC曲线具有独特的属性,对角线(TPR = FPR)表示机会,机会线(DAC)上方的距离表示信息或明智决策的可能性,曲线下面积(AUC)表示等级或正确的成对排名的可能性。这些结果并不适用于PR曲线,并且如上所述,较高的Recall或TPR会使AUC失真。PR AUC变大不会 暗示ROC AUC较大,因此并不意味着提高排名(正确预测排名+/-对的概率,即预测+ ves高于-ves的频率),也不意味着提高知情度(明智的预测的概率而不是随机猜测-即做出预测时知道自己在做什么的频率)。
抱歉-没有图表!如果有人想添加图表来说明上述转换,那就太好了!我的论文中确实有很多关于ROC,LIFT,BIRD,Kappa,F量度,信息化等的文章,但是尽管https中有ROC,LIFT,BIRD,RP的插图,但它们并没有以这种方式呈现。://arxiv.org/pdf/1505.00401.pdf
更新:为避免试图在冗长的答案或评论中给出完整的解释,这是我的一些论文“发现” Precision vs Recall权衡公司的问题。F1,获取信息,然后“探索”与ROC,Kappa,重要性,DeltaP,AUC等的关系。这是我20年前遇到的一个问题(Entwisle),此后有很多人发现了现实世界中的例子他们自己的地方有经验证明,R / P / F / A方法向学习者发送了错误的方式,而信息性(在适当情况下为Kappa或相关性)向学习者发送了正确的方式-现在遍及数十个领域。其他作者在Kappa和ROC上也有很多不错的相关论文,但是当您使用Kappas与ROC AUC与ROC Height(Informedness或Youden' J)在2012年我的论文列表中得到了澄清(其中许多重要的论文也被引用)。2003年的Bookmaker论文首次为多类案例推导了一个“知性”公式。2013年的论文得出了Adaboost的多类版本,该版本适用于优化信息性(带有指向托管和运行它的经修改的Weka的链接)。
参考文献
1998年统计数据在NLP解析器评估中的应用。DMW Powers J Entwisle-语言处理新方法联合会议论文集:215-224 https://dl.acm.org/citation.cfm?id=1603935 被15引用
2003年Recall&Precision与Bookmaker。DMW Powers-国际认知科学会议:529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 被46引用
2011年评估:从精度,召回率和F度量到ROC,信息,标记和相关性。DMW Powers-机器学习技术杂志2(1):37-63。 http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 被1749引用
2012 Kappa问题。DMW Powers-第13届欧洲ACL会议论文集:345-355 https://dl.acm.org/citation.cfm?id=2380859 被63引用
2012 ROC-ConCert:基于ROC的一致性和确定性度量。DMW Powers-春季工程技术大会(S-CET)2:238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf 被5引用
2013 ADABOOK和MULTIBOOK::带有机会校正的自适应增强。DMW Powers-ICINCO控制,自动化和机器人信息学国际会议 http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf
https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat (GUI shortcut on Windows)
被4引用