Answers:
您可以选择的错误指标池在分类和回归之间是不同的。在后者中,您尝试预测一个连续值,并通过分类预测离散类,例如“健康”或“不健康”。从您提到的示例中,均方根误差将适用于回归,而AUC则适用于两类分类。
让我为您提供有关分类的更多详细信息。您提到了AUC作为量度,它是ROC曲线下的面积,通常仅适用于具有两个类的二进制分类问题。尽管有多种方法可以构造两个以上类别的ROC曲线,但它们却松散了两个类别的ROC曲线的简单性。此外,仅当选择的分类器输出与每个预测相关的某种分数时,才能构建ROC曲线。例如,逻辑回归将为您提供两个类别中每个类别的概率。ROC曲线不仅简单易用,还具有不受数据集中正例和负例实例之间的比率的影响,并且不会强迫您选择阈值。但是,建议不仅仅查看ROC曲线,还建议查看其他可视化效果。我建议您看一下精确召回曲线和成本曲线。一种真正的误差测量方法,它们都有其优点和缺点。
我发现在这方面有帮助的文献有:
如果您的分类器不提供某种评分,则您必须回到可以从包含真阳性,假阳性,真阴性和假阴性数量的混淆矩阵中获得的基本指标。上面提到的可视化(ROC,精确召回,成本曲线)都是基于这些表的,这些表是使用分类器分数的不同阈值获得的。在这种情况下,最受欢迎的量度可能是F1-Measure
让我在已经存在的答案中再加上一些想法。
根据您的研究设计,正确或错误分类的样本的总体分数是否是适当的摘要,您可以从中得出的结论也将取决于研究设计:您的测试数据是否反映了样本的先验概率(普遍性)类?对于应该使用您的分类器的人群?它是以分层方式收集的吗?这与以下事实密切相关:分类器的大多数用户对预测值更感兴趣,但是敏感性和特异性更容易测量。
您询问一般准则。一个一般准则是您需要了解
我认为除非您能够回答这些问题,否则您将找不到有用的指标。
有点像在分类器验证中没有免费的午餐。
预期的错误分类错误率是我最常使用和看到的方法。ROC的AUC是一组分类规则的度量。如果该想法是将一个特定的分类器与另一个分类器进行比较,那么AUC是不合适的。某种形式的分类错误最有意义,因为它最直接代表分类规则的性能。
由于重新估计的估计偏差很大,留一法的差异很大,因此很多工作都在寻找对分类错误率的好的估计。自举和平滑估计器已被考虑。例如,请参阅Efron在JASA 1983中发表的有关交叉验证上的引导程序改进的论文。
这是 Efron和Tibshirami 在1995年的斯坦福大学技术报告中,总结了包括我自己的一些著作在内的文献。