高度不平衡数据的分类/评估指标


22

我处理欺诈检测(类似信用评分)问题。因此,欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recallkappa两者似乎都是不错的选择:

证明此类分类器结果的一种方法是将它们与基准分类器进行比较,并表明它们确实比随机机会预测好。

据我了解,kappa由于考虑了随机机会,因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中,我了解到这kappa涉及信息获取的概念:

[...] 80%的观测精度令人印象深刻,预期精度为75%,而预期精度为50%[...]

因此,我的问题是:

  • 假设kappa是更适合此问题的分类指标是正确的吗?
  • 简单地使用可以kappa防止不平衡对分类算法的负面影响吗?是否仍需要重新(向下/向上)采样或基于成本的学习(请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?

当训练数据不平衡数据时,应该对数据进行上/下采样,这有时可以帮助防止分类器忽略少数群体。在评估分类器时使用重新采样的数据是不适当的(并且有一点欺诈性)-您将报告分类器应用于以相同方式分布到原始测试数据的样本时没有的性能。
user48956 '17

Answers:


10

是的,您对Kappa的假设似乎正确。作为单个标量指标的Kappa主要是优势,并且比其他单个标量指标(如准确性)具有​​优势,后者不能反映较小类别的预测性能(被任何较大类别的性能所影响)。正如您所指出的,Kappa可以更优雅地解决此问题。

使用Kappa之类的指标来衡量您的效果并不一定会提高模型与数据的拟合度。您可以使用许多指标来衡量任何模型的性能,但是使用其他参数(例如,超参数)确定模型如何拟合数据。因此,您可以使用Kappa在非常不平衡的问题的多种选择中选择最合适的模型类型和超参数化-但是仅计算Kappa本身不会改变模型如何适合您的不平衡数据。

对于不同的指标:除了Kappa和精确度/召回率之外,还请查看真实的正比率和真实的负比率TPR / TNR,ROC曲线以及曲线AUC下的面积。其中哪些对您的问题有用,主要取决于目标的细节。例如,TPR / TNR和precision / recall:中反映的不同信息是您的目标,即要实际检测到大量欺诈行为,并要检测到大量合法交易,和/或将所占比例最小化在所有警报中有哪些虚假警报(您会自然而然地遇到这类问题)?

对于上/下采样:我认为“如果需要”没有规范的答案。它们更是解决问题的一种方法。从技术上讲:是的,您可以使用它们,但要小心使用它们,尤其是上采样(您可能最终在不注意的情况下创建了不切实际的样本)-并且请注意,将这两个类别的样本的频率更改为“不实际的” ”也可能会对预测效果产生负面影响。至少最终的测试集应再次反映样品的真实频率。底线:我已经看过两种情况,进行和不进行上/下采样会导致最终结果更好,因此您可能需要尝试一下(但是不要操纵测试集!) 。


但是,由于考虑了整体业务影响,像DOI 10.1109 / ICMLA.2014.48这样的基于成本的方法是否更合适?
Georg Heiler '16

15

ŤPFPFñ

  • F1得分,这是调和平均数精度召回
  • G-量度,这是几何平均值精度召回。与F1相比,我发现数据不平衡的情况要好一些。
  • ŤP/ŤP+FP+Fñ

注意:对于不平衡的数据集,最好将指标进行宏观平均


1
当您指代G-measure和Jaccard Index时,“更好”是什么意思?
Narfanar

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.