分类器评估:学习曲线与ROC曲线


11

我想比较2个不同的分类器,以解决使用大型训练数据集的多类文本分类问题。我怀疑我应该使用ROC曲线还是学习曲线来比较这两个分类器。

一方面,学习曲线对于确定训练数据集的大小很有用,因为您可以找到分类器停止学习(并可能降级)的数据集的大小。因此,在这种情况下,最好的分类器可能是精度最高,数据集大小最小的分类器。

另一方面,ROC曲线可让您在灵敏度/特异性之间找到适当权衡的点。在这种情况下,最好的分类器就是最接近左上角的分类器,它是所有FPR中最高的TPR。

我应该同时使用两种评估方法吗?学习曲线较好的方法的ROC曲线是否可能变差,反之亦然?


您是否有一个分类器的示例,其中训练集变大时性能会降低?
mogron 2012年

Answers:


11

学习曲线仅是一种诊断工具,可以告诉您模型学习的速度,以及您的整个分析是否不停留在集合太小/集合太小(如果适用)的怪异区域中。对于模型评估而言,该图的唯一有趣的部分是它的结尾,即最终性能-但这不需要报告图。
根据您在问题中所描绘的学习曲线来选择模型并不是一个好主意,因为您可能会选择一个最适合在过小的样本集上过度拟合的模型。

关于ROC ... ROC 曲线是一种评估二元模型的方法,该模型会产生一个对象属于一个类别的置信度分数。可能还会找到最佳阈值,以将其转换为实际分类器。
您所描述的是一种将分类器的性能绘制为ROC 空间中TPR / FPR散点图的想法,并使用最接近左上角的准则来选择此准则,从而在生成错误警报和未命中之间取得最佳平衡- -只需选择具有最佳F分数(精确度和查全率的谐和平均值)的模型,就可以更优雅地实现此特定目标。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.