KS,AUROC和Gini之间的关系


11

诸如Kolmogorov–Smirnov检验(KS),AUROCGini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!


1
KS代表的是Kolmogorov-Smirnov统计数据吗?AUROC可能是ROC曲线下的面积?
Nitesh 2014年

好像是从Wikipedia开始并经过原始参考文献,将是一个不错的起点。
LauriK 2014年

Answers:


1

对于Gini = 2AUROC-1结果,Wikipedia条目的Receiver操作特性参考了本文:Hand,David J .; 和Till,Robert J.(2001);对于多类分类问题,ROC曲线下面积的简单概括,Machine Learning,45,171–186。但是,恐怕我无法轻松访问它以了解它与您想要的东西有多接近。


1
...这可能是无用的结果,因为基尼(Gini)通常应用于具有两个类别标签的数据,而AUROC应用于数值排名数据+二进制标签。当您的排名为二进制时,它们才可能 重合?在这种情况下,根本不会使用AUROC,因为它是仅具有2个自由度的3点曲线...(我现在没有检查过这个结果,最近在Wikipedia上出现过多的垃圾邮件。)
已退出-Anony-Mousse 2015年

0

根据该论文(Adeodato,PJ L和Melo,SB 2016),KS曲线下面积(AUKS)和ROC曲线下面积(AUROC)之间存在线性关系,即:

AUROC=0.5+AUKS

等效证明包括在本文中。


0

结果Gini = 2 * AUROC-1很难证明,因为它不一定是正确的。Wikipedia上有关接收器工作特性曲线的文章给出了作为基尼定义的结果,而Hand and Till的文章(由nealmcb引用)只是说,使用ROC曲线对基尼的图形定义导致了该公式。

值得注意的是,机器学习和工程学界使用的是Gini的定义,但是经济学家和人口统计学家使用的定义是不同的(回到Gini的原始论文)。维基百科上有关基尼系数的文章基于洛伦兹曲线阐述了这一定义。

由Schechtman&Schechtman(2016)论文阐述了AUC和原始基尼定义之间的关系。但是要看到它们不可能完全相同,请假设事件的比例为p,并且我们有一个完美的分类器。然后,ROC曲线穿过左上角,AUCROC为1。但是,(翻转的)洛伦兹曲线从(0,0)到(p,1)到(1,1),经济学家的基尼值为1 - p / 2,这是近但不完全1。

如果事件很少发生,那么使用Gini的原始定义,关系Gini = 2 * AUROC-1几乎正确,但并非完全正确。仅当重新定义Gini使其正确时,该关系才完全正确。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.