评估分类器时如何选择错误指标?


15

我已经在Kaggle竞赛中看到了不同的误差指标:RMS,均方根,AUC等。选择错误度量标准的一般经验法则是什么,即您如何知道针对给定问题使用哪个错误度量标准?有指导原则吗?

Answers:


12

您可以选择的错误指标池在分类和回归之间是不同的。在后者中,您尝试预测一个连续值,并通过分类预测离散类,例如“健康”或“不健康”。从您提到的示例中,均方根误差将适用于回归,而AUC则适用于两类分类。

让我为您提供有关分类的更多详细信息。您提到了AUC作为量度,它是ROC曲线下的面积,通常仅适用于具有两个类的二进制分类问题。尽管有多种方法可以构造两个以上类别的ROC曲线,但它们却松散了两个类别的ROC曲线的简单性。此外,仅当选择的分类器输出与每个预测相关的某种分数时,才能构建ROC曲线。例如,逻辑回归将为您提供两个类别中每个类别的概率。ROC曲线不仅简单易用,还具有不受数据集中正例和负例实例之间的比率的影响,并且不会强迫您选择阈值。但是,建议不仅仅查看ROC曲线,还建议查看其他可视化效果。我建议您看一下精确召回曲线和成本曲线。一种真正的误差测量方法,它们都有其优点和缺点。

我发现在这方面有帮助的文献有:

如果您的分类器不提供某种评分,则您必须回到可以从包含真阳性,假阳性,真阴性和假阴性数量的混淆矩阵中获得的基本指标。上面提到的可视化(ROC,精确召回,成本曲线)都是基于这些表的,这些表是使用分类器分数的不同阈值获得的。在这种情况下,最受欢迎的量度可能是F1-Measureññ×ññ 2×2一种一种


1
ññ×ññ 2×2

非常感谢您指出此错误,我在上面的答案中对其进行了更正。
2012年

5

让我在已经存在的答案中再加上一些想法。

  • 实际上,大多数分类器确实具有中间连续分数,通常在该分数上使用分配硬类的阈值(t以下:t类a,b以上:b类)。更改此阈值将产生ROC。
  • 通常,将这样的曲线压缩为一个数字不是一个好主意。参见例如用于归纳算法比较的精度估计的案例
    有许多不同的ROC具有相同的AUC,并且对于给定的应用,其有用性可能相差很大。
  • 反之亦然:阈值的选择可能很大程度上取决于您所拥有的应用程序。
  • 您无需查看这些边界之外的分类器性能,如果您选择一个指标,则至少应仅总结出其他指标的相关范围。
  • 根据您的研究设计,正确或错误分类的样本的总体分数是否是适当的摘要,您可以从中得出的结论也将取决于研究设计:您的测试数据是否反映了样本的先验概率(普遍性)类?对于应该使用您的分类器的人群?它是以分层方式收集的吗?这与以下事实密切相关:分类器的大多数用户对预测值更感兴趣,但是敏感性和特异性更容易测量。

  • 您询问一般准则。一个一般准则是您需要了解

    • 您需要什么样的性能(敏感性,特异性,预测值等,回答有关分类器行为的特定问题,请参阅我在此处写的内容)。
    • 这些性能特征在您的应用程序中可接受的工作范围是多少?
      它们之间的差异可能很大:您可能愿意在垃圾邮件检测中接受相当多的假阴性,但是对于HIV诊断来说,这不是可接受的设置...

我认为除非您能够回答这些问题,否则您将找不到有用的指标。

有点像在分类器验证中没有免费的午餐。


2

预期的错误分类错误率是我最常使用和看到的方法。ROC的AUC是一组分类规则的度量。如果该想法是将一个特定的分类器与另一个分类器进行比较,那么AUC是不合适的。某种形式的分类错误最有意义,因为它最直接代表分类规则的性能。

由于重新估计的估计偏差很大,留一法的差异很大,因此很多工作都在寻找对分类错误率的好的估计。自举和平滑估计器已被考虑。例如,请参阅Efron在JASA 1983中发表的有关交叉验证上的引导程序改进的论文。

这是 Efron和Tibshirami 在1995年的斯坦福大学技术报告中,总结了包括我自己的一些著作在内的文献。


比较两个分类器在同一数据集上的性能是另一个要争论的话题。特别是在ROC和AUC的情况下,有两种方法可以比较整个ROC曲线或AUC估计值。这些本质上是具有零假设(ROC / AUC不变)的统计检验。交叉验证与引导程序是另一个有趣的话题,我最近看到了一篇有关该文件的文章(dx.doi.org/10.1016/j.csda.2010.03.004)。我想如果您同时考虑所有方面,可能会令人生畏。
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.