Wojtek J. Krzanowski和David J. Hand 连续数据的ROC曲线(2009)是与ROC曲线相关的所有事物的绝佳参考。它收集了许多令人沮丧的广泛文献基础的结果,这些文献经常使用不同的术语来讨论同一主题。
此外,本书提供了对估计相同数量的替代方法的评论和比较,并指出某些方法做出的假设在特定情况下可能站不住脚。这就是这样的背景。其他答案报告了Hanley&McNeil方法,该方法假设分数分布采用双正态模型,这在班级分数分布不(接近)正态分布的情况下可能是不合适的。正态分布分数的假设在现代机器学习环境中似乎尤其不合适,典型的通用模型(例如xgboost)倾向于针对分类任务生成具有“浴缸”分布的分数(即,在接近0和1的极端中具有高密度的分布) )。
问题1-AUC
第6.3节讨论了两条ROC曲线的ROC AUC的比较(第113-114页)。特别是,我的理解是这两个模型是相关的,因此有关如何计算的信息在这里至关重要。否则,您的测试统计信息将带有偏差,因为它没有考虑相关性的贡献。r
对于不基于任何参数分布假设的ROC曲线不相关的情况,可以直接基于估算和来比较AUC的tet和置信区间的统计数据3.5.1节中给出的AUC值的估计以及其标准偏差和估计: ^ AUC 2S1S2AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
要将此类测试扩展到两个分类器使用相同数据的情况,我们需要考虑AUC估计之间的相关性:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
其中是此相关性的估计。汉利和麦克尼尔(1983)做了这样一个扩展,在副法线情况下根据他们的分析,但只给了示出如何计算所估计的相关系数的表从相关类P内的两个分类的,并且所述相关 N类中两个分类器中的一个,表示可以根据要求提供数学推导。其他各种作者(例如Zou,2001)已经基于双正态模型开发了测试,假设可以找到适当的变换,该变换会将P和N类的得分分布同时变换为正态。[R [R P - [R ÑrrrPrn
DeLong等人(1988)利用AUC和Mann-Whitney检验统计量之间的同一性以及Sen(1960)提出的广义统计量理论的结果,得出了AUC之间的相关性估计,即不依赖于双态假设。实际上,DeLong等人(1988年)提出了以下结果,用于分类器之间的比较。ķ ≥ 2Uk≥2
在3.5.1节中,我们表明经验ROC曲线下的面积等于Mann-Whitney统计量,并由下式给出:U
sPi,i=1,…,nPPsNj,j=1,…,nNNks r N j,j=1…nNs r P i,j=1,…,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
其中是类对象和的得分是样本中类对象的得分。假设我们有分类器,产生分数和 [我纠正了这部分的索引错误 ]和。限定sPi,i=1,…,nPPsNj,j=1,…,nNNksrNj,j=1…nN^ A U C r,r = 1 ,… ,ksrPi,j=1,…,nPAUCˆr,r=1,…,k
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
和
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
接下来,用第个元素
定义矩阵
和矩阵,第个元素
然后,曲线下估计面积的向量的估计
协方差矩阵为k×kW10(r,s)
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)wr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
(AUCˆ1,…,AUCˆk)W=1nPW10+1nNW01
,元素为。这是对单个估计的AUC的估计方差的结果的概括,也在3.5.1节中给出。因此,在两个分类器的情况下,估计的AUC之间的估计相关性由可以在上面的使用。wr,srw1,2w1,1w2,2√z
由于另一个答案给出了AUC方差估计量的Hanley和McNeil表达式,因此在此我将重现p的DeLong估计量。68:
由DeLong等人(1988)提出并由Pepe(2003)举例说明的另一种方法给出的估计可能更简单,并且引入了放置值的额外有用概念。分数相对于指定种群的放置值是该种群的幸存者函数在。在总体N中的放置值为,而在总体P中的放置值为。位置值的经验估计值由明显的比例给出。因此,观测值在总体P中的放置值表示为是来自P的样本值超过sss1−F(s)s1−G(s)sNisPNisNi和是每个观测值相对于总体P从N的观察值的方差...var(sNPi)
DeLong等人(1988)根据以下方差给出的方差估计:
AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
请注意,是总体N中得分的累积分布函数,而是总体P中得分的累积分布函数。估计和标准方法是使用ecdf。本书还为ecdf估计提供了一些替代方法,例如内核密度估计,但这不在此答案的范围之内。FGFG
可以假定统计量和为标准正态偏差,并且对原假设的统计检验将以通常的方式进行。(另请参见:假设检验)Zz
这是假设检验工作原理的简化高级概述:
用您的话来说,检验“一个分类器是否明显优于另一个分类器”可以改写为检验两个模型在统计上相等的AUC的原假设与统计数据不相等的替代假设。
这是一个两尾测试。
如果检验统计量在参考分布的关键区域(在这种情况下为标准正态分布),我们将拒绝零假设。
关键区域的大小取决于测试的水平。对于95%的显着性水平,如果或,则检验统计量将落在关键区域。(这些是标准正态分布的和分位数。)否则,您将无法拒绝原假设,并且两个模型在统计上是绑定的。αz>1.96z<−1.96α/21−α/2
问题1-敏感性和特异性
比较敏感性和特异性的一般策略是观察到这两种统计量都相当于对比例进行统计推断,这是一个经过充分研究的标准问题。具体来说,敏感度是得分高于某个阈值的总体P的比例,对于人口N的特异性同样如此:
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
鉴于两个样本的比例将相互关联(因为您已将两个模型应用于相同的测试数据),因此主要的发展点是开发适当的测试。这一点在p上解决。111。
转到特定的测试,几个汇总统计量归结为每条曲线的比例,因此可以使用比较比例的标准方法。例如,固定的值是一个比例,固定阈值的误分类率也是如此。因此,我们可以使用这些测量方法通过标准测试来比较曲线以比较比例。例如,在不成对的情况下,我们可以使用检验统计量,其中是曲线的真实正率作为相关点,而是和的方差之和...tpfpt(tp1−tp2)/s12tpiis212tp1tp2
但是,对于成对的情况,可以推导出一种调整,以允许和之间的协方差,但是另一种方法是使用McNemar检验相关比例(Marascuilo和McSweeney,1977)。tp1tp2
所述麦克尼马尔测试是适当的,当你有受试者,并且每个受试者被测试两次,一次用于每个两个二分结果。给定敏感性和特异性的定义,很明显,这正是我们寻求的测试,因为您已将两个模型应用于相同的测试数据,并在某个阈值处计算了敏感性和特异性。N
McNemar检验使用不同的统计量,但使用相似的原假设和替代假设。例如,考虑到敏感性,零假设是比例,替代选择是。重新将比例重新设置为原始计数,我们可以写一个列联表
其中细胞计数通过计数给出每个模型的真实肯定和错误否定tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
并且我们有检验统计量
,它以分布,具有1个自由度,是卡方分布。如果水平为,则对于,将拒绝原假设。
M=(b−c)2b+c
χ21α=95%M>3.841459
对于特异性,可以使用相同的过程,除了你更换与。srPisrNj
问题2
似乎通过平均每个响应者的预测值来合并结果就足够了,因此对于每个模型,您都有1个100个平均预测值的向量。然后像往常一样计算ROC AUC,敏感性和特异性统计数据,就好像原始模型不存在一样。这反映了一种建模策略,该策略将5个受访者的模型中的每一个都视为模型的“委员会”之一,有点像一个整体。