我处理欺诈检测(类似信用评分)问题。因此,欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall
或kappa
两者似乎都是不错的选择:
证明此类分类器结果的一种方法是将它们与基准分类器进行比较,并表明它们确实比随机机会预测好。
据我了解,kappa
由于考虑了随机机会,因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中,我了解到这kappa
涉及信息获取的概念:
[...] 80%的观测精度令人印象深刻,预期精度为75%,而预期精度为50%[...]
因此,我的问题是:
- 假设
kappa
是更适合此问题的分类指标是正确的吗? - 简单地使用可以
kappa
防止不平衡对分类算法的负面影响吗?是否仍需要重新(向下/向上)采样或基于成本的学习(请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?