如何解释ROC曲线?


14

我对我在SAS上的数据应用了逻辑回归,这是ROC曲线和分类表。

在此处输入图片说明

我对分类表中的数字感到满意,但不确定roc曲线及其下的面积是什么。任何解释将不胜感激。

Answers:


22

在进行逻辑回归时,将为您提供两个编码为和。现在,您可以计算给定一些解释性变量的概率,该概率属于一个个人,其编码为。如果您现在选择一个概率阈值,并将概率大于此阈值的所有个体归为类,并归类为0 1 1 010110,大多数情况下您会犯一些错误,因为通常无法完美地区分两组。对于此阈值,您现在可以计算错误以及所谓的敏感性和特异性。如果对许多阈值执行此操作,则可以通过针对许多可能阈值绘制灵敏度对1-Specificity的曲线来构建ROC曲线。如果您想比较尝试区分两个类别的不同方法(例如判别分析或概率模型),曲线下的区域将发挥作用。您可以为所有这些模型构建ROC曲线,并且曲线下面积最大的ROC曲线可以视为最佳模型。

如果您需要更深入的了解,还可以通过单击此处阅读有关ROC曲线的其他问题的答案


ROC曲线下的面积与分类表中的正确比率有何不同?
古纳尔2014年

2
该表仅显示一个阈值的正确和不正确。但是,AUROC曲线是对完整分类方法的度量,对于许多不同的阈值都是正确和不正确的。
random_guy 2014年

很高兴听到!
random_guy 2014年

6

AUC基本上只是告诉您,从带有1标签的数据的预测响应概率中随机抽取的频率要大于从带有0标签的数据的预测响应概率中随机抽取的频率。


6

逻辑回归模型是直接概率估计方法。分类在其使用中不起作用。除非常特殊的紧急情况外,任何不基于评估各个主题的效用(损失/成本函数)的分类都是不合适的。ROC曲线在这里没有帮助;像总体分类准确性一样,敏感性或特异性也不是由伪造模型优化的不正确的准确性评分规则,而伪造模型并未通过最大似然估计进行拟合。

请注意,通过过度拟合数据可以实现较高的预测辨别力(较高的指数(ROC区域))。在的最不频繁类别中,您可能需要至少观测值,其中是要考虑的候选预测变量的数量,以便获得一个没有明显过拟合的模型(即,一个可能在新数据上起作用的模型)以及在训练数据上的效果]。您仅需要估计至少96个观察值,即可估计截距,以使预测风险的误差范围为,置信度为0.95。15 p ý p 0.05c15pYp0.05


@弗兰克·哈雷尔(Frank Harrell):您能否详细说明有关截距的计算以及有关误差范围的注释。谢谢!
2014年

@FrankHarrell是否建议您至少需要进行15p次观测,才能最终进行岭回归以校准模型?我的理解是,我们先用有效维数代替p。
鳞翅目

正确,我想说您使用诸如二次(岭)罚分之类的惩罚来估计参数,从而获得更好的校准效果
Frank Harrell

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.