AUC-ROC可以在0-0.5之间吗?


Answers:


19

完美的预测变量的AUC-ROC得分为1,进行随机猜测的预测变量的AUC-ROC得分为0.5。

如果您得到的分数为0,则表示分类器完全不正确,这表示有100%的时间预测了错误的选择。如果您只是将此分类器的预测更改为相反的选择,则它可以完美预测,并且AUC-ROC得分为1。

因此,在实践中,如果您获得的AUC-ROC分数在0到0.5之间,则您标记分类器目标的方式可能会出错,或者您的训练算法可能不正确。如果得分为0.2,则表明数据包含足够的信息,得分为0.8,但是出了点问题。


我认为此答案跳过了模型过拟合的可能性,例如,在训练数据上获得0.8的AUC,在保持数据上获得0.35的AUC。
Sycorax说恢复莫妮卡

1
@Sycorax:嗯,我可以看到过度拟合显然会如何将AUC推到机会水平的水平(如果您离真实模型太远而您的预测只是垃圾),但是它会(显着)低于机会?
鲁宾·范·卑尔根

1
每当某个集合的排名比正确更接近于落后时,您的AUC都将低于0.5 。与在任何其他情况下过度拟合没有什么不同。
Sycorax说要

14

如果您要分析的系统在机会级别以下运行,它们可以。琐碎地讲,您可以通过始终以与事实相反的方式轻松地构造具有0 AUC的分类器。

当然,实际上,您会在一些数据上训练分类器,因此,值远小于0.5时,通常会表明算法,数据标签或训练/测试数据的选择存在错误。例如,如果您在火车数据中错误地切换了班级标签,则预期的AUC将为1减去“真实” AUC(给定正确的标签)。如果将数据划分为训练和测试分区,以使要分类的模式系统地不同,则AUC也可能小于0.5。例如,如果一个班级在培训班和测试班中更为常见,或者如果每个班级中的模式在系统上有不同的截距,而这些截距是您不正确的,则可能发生这种情况。

最后,它也可能是随机发生的,因为从长远来看,您的分类器处于机会级别,但恰巧在测试样本中变得“不走运”(即,错误多于成功)。但是在那种情况下,值仍应相对接近0.5(接近程度取决于数据点的数量)。


1

抱歉,这些答案是错误的错误。不,您不能在查看数据后立即翻转AUC。想象一下,您正在购买股票,并且总是买错股票,但是您对自己说,那么就可以了,因为如果您购买的股票与模型所预测的相反,那么您会赚钱。

事实是,有很多(通常不是很明显的)原因使您可以偏向结果并始终保持低于平均水平的性能。如果现在翻转AUC,您可能会认为自己是世界上最好的建模者,尽管数据中从来没有任何信号。

这是一个仿真示例。注意,预测变量只是与目标没有关系的随机变量。另外,请注意平均AUC约为0.3。

library(MLmetrics)
aucs <- list()
for (sim in seq_len(100)){
  n <- 100
  df <- data.frame(x=rnorm(n),
               y=c(rep(0, n/2), rep(1, n/2)))

  predictions <- list()
  for(i in seq_len(n)){
    train <- df[-i,]
    test <- df[i,]

    glm_fit <- glm(y ~ x, family = 'binomial', data = train)
    predictions[[i]] <- predict(glm_fit, newdata = test, type = 'response')
  }
  predictions <- unlist(predictions)
  aucs[[sim]] <- MLmetrics::AUC(predictions, df$y)
}
aucs <- unlist(aucs)
plot(aucs); abline(h=mean(aucs), col='red')

结果

在此处输入图片说明

当然,由于数据是随机的,因此分类器无法从数据中学习任何信息。由于LOOCV会产生有偏见的,不平衡的训练集,因此出现了较低的机会AUC。但是,这并不意味着如果您不使用LOOCV,那是安全的。这个故事的重点是,即使数据中没有任何内容,结果也有很多方法可以使波纹管具有良好的平均性能,因此,除非您知道自己在做什么,否则不要翻转预测。而且由于您的平均性能较低,因此您看不到自己在做什么:)

这里有几篇涉及这个问题的论文,但我相信其他人也一样

Jamalabadi等人2016 https://onlinelibrary.wiley.com/doi/full/10.1002/hbm.23140

Snoek等人2019 https://www.ncbi.nlm.nih.gov/pubmed/30268846


这应该是公认的答案!
tdc
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.