诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!
诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!
Answers:
对于Gini = 2AUROC-1结果,Wikipedia条目的Receiver操作特性参考了本文:Hand,David J .; 和Till,Robert J.(2001);对于多类分类问题,ROC曲线下面积的简单概括,Machine Learning,45,171–186。但是,恐怕我无法轻松访问它以了解它与您想要的东西有多接近。
结果Gini = 2 * AUROC-1很难证明,因为它不一定是正确的。Wikipedia上有关接收器工作特性曲线的文章给出了作为基尼定义的结果,而Hand and Till的文章(由nealmcb引用)只是说,使用ROC曲线对基尼的图形定义导致了该公式。
值得注意的是,机器学习和工程学界使用的是Gini的定义,但是经济学家和人口统计学家使用的定义是不同的(回到Gini的原始论文)。维基百科上有关基尼系数的文章基于洛伦兹曲线阐述了这一定义。
阿由Schechtman&Schechtman(2016)论文阐述了AUC和原始基尼定义之间的关系。但是要看到它们不可能完全相同,请假设事件的比例为p,并且我们有一个完美的分类器。然后,ROC曲线穿过左上角,AUCROC为1。但是,(翻转的)洛伦兹曲线从(0,0)到(p,1)到(1,1),经济学家的基尼值为1 - p / 2,这是近但不完全1。
如果事件很少发生,那么使用Gini的原始定义,关系Gini = 2 * AUROC-1几乎正确,但并非完全正确。仅当重新定义Gini使其正确时,该关系才完全正确。