在损失函数之间进行选择以进行二进制分类


18

我在一个问题域中工作,人们经常报告ROC-AUCAveP(平均精度)。但是,最近我发现有一些论文可以优化对数损失,而另一些则报告了Hinge Loss

虽然我了解这些指标的计算方式,但我很难理解它们之间的取舍,而这恰好对我们有好处。

当谈到ROC-AUC与Precision-Recall时,该线程讨论了如何将ROC-AUC最大化视为使用损失优化标准,该标准对“将真实负数至少定为真实正数进行惩罚(假设更高分数对应于肯定)。此外,与Precision-Recall指标相比,该其他线程还提供了有关ROC-AUC的有用讨论。

但是,对于哪种类型的问题,相对于ROC-AUCAvePHinge损失,对数丢失是优选的吗?最重要的是,在二元分类的这些损失函数之间进行选择时,应该问什么类型的问题

Answers:


8

关于此问题的最新参考文献为[1]。本质上,它表明您指定的所有损失函数都将以快速的速率收敛到贝叶斯分类器。

在有限样本之间进行选择可以由几个不同的参数决定:

  1. 如果要恢复事件概率(不仅是分类),那么逻辑对数损失或任何其他广义线性模型(Probit回归,互补对数对数回归等)都是很自然的选择。
  2. 如果仅以分类为目标,则SVM可能是首选,因为它仅将观测值定位在分类目标上,而忽略了远处的观测值,从而减轻了所假设线性模型真实性的影响。
  3. 如果没有太多观察结果,则2中的优势可能是不利的。
  4. 可能存在计算上的差异:在上述优化问题和您使用的特定实现中。
  5. 底线-您可以简单地尝试所有方法并选择效果最好的方法。

[1] Bartlett,Peter L,Michael I Jordan和Jon D McAuliffe。“凸性,分类和风险界限”。《美国统计协会杂志》 101号,第1期。473(2006年3月):138-56。doi:10.1198 / 016214505000000907。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.