之间的连接(d素)和AUC(下面积ROC曲线); 基本假设


13

在机器学习中,我们可以使用ROC曲线下面积(通常缩写为AUC或AUROC)来总结系统在两个类别之间的区分程度。在信号检测理论中,通常将(灵敏度指标)用于类似目的。两者是紧密相连的,如果满足某些假设,我相信它们彼此等效d

的的计算通常是基于假设正态分布的信号分布(见维基链接以上,例如)呈现。ROC曲线计算不做此假设:它适用于任何可输出可阈值的连续值决策标准的分类器。d

维基百科是相当于。如果两个假设都满足,这似乎是正确的。但是,如果假设不相同,那就不是普遍真理。d2AUC1

将假设的差异描述为“ AUC对基本分布做出的假设更少”是否公平?还是实际上与AUC一样广泛适用,但是使用人们倾向于使用假设正态分布的计算只是一种惯例?我错过的基本假设是否还有其他差异?dd

Answers:


7

不可以。AUC的最大值为1。d'没有最大值。

我认为d'等于qnorm(AUC)* sqrt(2)(我对旧的统计书的记忆,我现在找不到,但似乎是根据我在网上找到的一些数据进行核对的)。这里qnorm(x)是“正态分布的分位数函数”(R说话)。也就是说,它返回正态分布的值,其中正态分布的x比例低于正态分布。


2
谢谢,这对我来说是正确的-但是,只有在我们假设分布是正常的情况下(因为使用qnorm())。我已经修正了维基百科的措辞。
丹·斯托威尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.