不平衡数据集的ROC曲线


10

考虑输入矩阵和二进制输出yXy

衡量分类器性能的一种常用方法是使用ROC曲线。

在ROC图中,对角线是从随机分类器获得的结果。在输出不平衡的情况下,可以选择具有不同概率的01来改善随机分类器的性能。y01

如何在ROC曲线图中表示此类分类器的性能?我想应该是一条具有不同角度的直线,而不是对角线了吗?

ROC曲线示例


2
你可能想尝试精确召回曲线,而不是“精准召回情节更多的信息比ROC曲线在评价上的不平衡数据集二元分类”,ncbi.nlm.nih.gov/pmc/articles/PMC4349800,一个可能的更由论文作者创建的可访问网站classeval.wordpress.com/simulation-analysis/…–
zyxue

Answers:


16

ROC曲线对班级平衡不敏感。您现在为随机分类器获得的直线已经是使用产生正数的不同概率的结果(0将您带到(0,0),1将您带到(1,1),介于两者之间的任何范围)。

在不平衡的设置中没有任何变化。


1
我发现考虑曲线下区域的含义以了解对角线为什么不变的方法很有帮助。AUC可以解释为随机选择的阳性样本比随机选择的阴性样本得分更高的概率。1。这使我更清楚为什么阶级不平衡不是问题。
JBecker 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.