对于模型拟合,实际测量的AIC和c统计量(AUC)有什么区别?


29

赤池信息准则(AIC)和c统计量(ROC曲线下的面积)是用于逻辑回归的模型拟合的两种度量。当两种方法的结果不一致时,我很难解释发生了什么。我猜他们正在衡量模型拟合的不同方面,但是这些具体方面是什么?

我有3个逻辑回归模型。模型M0具有一些标准协变量。M1型将X1加到M0上;模型M2将X2添加到M0(因此M1和M2不嵌套)。

从M0到M1和M2的AIC差异约为15,这表明X1和X2均可提高模型拟合度,且幅度大致相同。

c统计量为:M0,0.70;M1,0.73;M2 0.72。从M0到M1的c统计量差异很大(DeLong等人,1988年的方法),但是从M0到M2的差异并不显着,表明X1改善了模型拟合,但X2没有。

X1不是常规收集的。X2应该定期收集,但在大约40%的情况下会丢失。我们要决定是开始收集X1,还是改善X2的收集,还是删除两个变量。

根据AIC,我们得出结论,变量对模型进行了类似的改进。与开始收集一个全新的变量(X1)相比,改进X2的收集可能更容易,因此我们将致力于改进X2的收集。但是从c统计量来看,X1改进了模型,而X2却没有改进,因此我们应该忘记X2并开始收集X1。

由于我们的建议取决于我们关注的统计数据,因此我们需要清楚地了解它们所测量的差异。

任何意见欢迎。

Answers:


25

AIC和c-statistic试图回答不同的问题。(近年来,有关c统计量的问题也提出来了,但我将其放在一边)

大致说来:

  • AIC会告诉您您的模型对特定的误分类成本的适应程度。
  • AUC告诉您平均而言,模型在所有错误分类成本中的效果如何。

当您计算AIC时,您将逻辑假设0.9的预测视为1(即更可能是1而不是0)的预测,但是不一定如此。您可以将您的逻辑得分表示为“高于0.95的值为1,低于0的所有值为”。你为什么要这样做?好吧,这样可以确保您只有在真正有信心时才能预测一个。您的误报率确实会非常低,但是您的误报率会急剧上升。在某些情况下,这不是一件坏事-如果您要指控某人欺诈,您可能首先要真正确定。另外,如果要跟踪积极的结果非常昂贵,那么您就不需要太多。

这就是为什么它与成本有关。将1归类为0时会产生成本,而将0归类为1时会产生成本。通常(假设您使用的是默认设置)逻辑回归AIC指的是两种错误分类均相等时的特殊情况昂贵。也就是说,逻辑回归可为您提供最佳的正确预测总数,而不偏向于肯定或否定。

之所以使用ROC曲线,是因为它绘制了真阳性与假阳性之间的关系,以显示如果您在不同的成本需求下使用分类器时,分类器的性能如何。之所以产生c统计量,是因为任何严格位于另一曲线之上的ROC曲线显然都是主要的分类器。因此,直观地测量曲线下的面积,以衡量分类器的整体效果。

因此,基本上,如果您知道安装模型时的成本,请使用AIC(或类似产品)。如果您只是在构建分数,但未指定诊断阈值,则需要使用AUC方法(以下有关AUC本身的警告)。

那么c-statistic / AUC / Gini有什么问题呢?

多年来,AUC是标准方法,至今仍被广泛使用,但是它存在许多问题。使它特别有吸引力的一件事是,它对应于分类等级上的Wilcox检验。也就是说,它测量了一个类别的随机选择成员的得分高于另一类别的随机选择成员的得分的概率。问题是,这几乎永远不是有用的指标。

几年前,戴维·汉德(David Hand)提出了AUC最为关键的问题。(请参阅下面的参考资料)问题的症结在于,尽管AUC确实对所有成本进行了平均,但是由于ROC曲线的x轴是误报率,因此分配给不同成本制度的权重在分类器之间有所不同。因此,如果您根据两种不同的逻辑回归计算AUC,则在两种情况下都不会衡量“同一件事”。这意味着比较基于AUC的模型几乎没有意义。

汉德(Hand)提出了使用固定成本权重的另一种计算方法,并将其称为H度量-R中有一个程序包hmeasure将执行此计算,我相信AUC可用于比较。

关于AUC问题的一些参考资料:

  • 接收器工作特性曲线下方的区域何时才是分类器性能的适当度量?DJ Hand,C。Anagnostopoulos 模式识别字母 34(2013)492–495

    (我发现这是一个特别容易理解且有用的解释)


2
这是DJ Hand 撰写的另一篇论文:测量分类器性能:ROC曲线下方面积的连贯替代方案Machine Learning(2009)77:103-123。
chl 2013年

那是我一直在寻找的-是的,这是关键的第一篇论文(尽管因此,与后来的一些论文相比,这篇论文针对的是更多技术读者)。
Corone 2013年

3
R2

我对Corone的答案感到困惑,我认为AIC与模型的预测性能没有任何关系,而这仅仅是衡量数据与模型复杂性之间权衡的可能性的一种度量。
朱巴卜

@Berkan不知道您的意思是“与预测性能无关”,除非您只是简单地说这是一种样本内度量而不是样本外?(可能性越好,它就更好地“预测”了这些数据点)。关键是AIC是针对特定的,预先选择的似然函数,而AIC是其中一组的平均值。如果您知道可能性(即阈值,成本,患病率...),则可以使用AIC。
Corone 2013年

3

引用的手册没有在临床诊断中实际使用的依据。他的理论曲线为0.5 AUC,这是一个完美的分类器。他使用了一组真实的数据,这些模型太糟糕了,在这种情况下,模型将一发不可收拾,并且考虑到围绕测量值的置信区间(未提供数据但推断出)时,可能是随机的。鉴于缺乏真实世界(甚至合理的模拟)数据,这是一个空洞的论文。我个人参与了数千名患者(具有足够的自由度)中数千种分类器的分析。在这种情况下,他的论点是荒谬的。

他还倾向于最高级(在任何情况下都不是一个好兆头),并且做出不受支持的概括,例如,成本未知。在医学中,有些费用是可以接受的,例如筛查测试的阳性预测价值为10%,治疗干预的质量调整生命年为100,000美元。我发现很难相信,在信用评分中,人们对费用的理解并不充分。如果他(不清楚)说不同的个体误报和误报承担着不同的费用,那是一个非常有趣的话题,但它与实际情况并不相似。二进制分类器。

如果他的观点是ROC形状很重要,那么对于老练的用户而言,这是显而易见的,而老练的用户还有很多事情要担心,例如,将患病率纳入正面和负面的预测值中。

最后,我不知所措,无法理解如何无法根据模型的临床(或财务)用途所确定的各种现实界限来判断不同的分类器。显然,将为每个模型选择不同的临界值。不能仅基于AUC对模型进行比较。分类器无关紧要,但是曲线的形状无关紧要。


-1

对我而言,最重要的是,当比较具有不同自变量的模型(类似于Hand称为“分类器”的模型)时,C统计量(AUC)可能会出现问题,但它在其他应用程序中仍然有用。例如,验证研究是在不同研究人群(数据集)之间比较同一模型。如果显示模型或风险指数/评分在一个人群中具有很高的判别力,而在其他人群中则没有,则这可能意味着它通常并不是一个很好的工具,但在特定情况下可能是这样。


3
R2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.