当接近100%的类别标签属于一个类别时,如何衡量分类器的性能?


9

在我的数据,我有一个类变量,记为。此类变量的值为(二进制)。几乎所有对观察都为0(接近100%,更准确地说是97%)。我想在不同的分类模型上进行“性能”测试(可能是准确性)。我担心发生的事情是,如果我有一个分类模型始终将任何观察结果分类为0类,那么该模型将具有97%的准确度(即使它从未考虑任何其他变量)。C01个C

是否存在针对处理非常罕见事件的数据的分类模型的众所周知的性能测试?

Answers:


3

我想到了几种可能性。

通常,查看总体命中率并不是一个好主意,因为如果不同类别的性能不同,则取决于测试集的组成。因此,至少应指定(并证明)测试数据中类的相对频率,以便得出有意义的值。

其次,就像@Shorack已经说过的那样,指定错误的类型有多重要。通常,分类器需要满足某些性能标准才能有用(而总体准确性很少是适当的衡量标准)。诸如敏感性,特异性,阳性和阴性预测值之类的度量考虑了不同类别和不同类型的错误分类。您可以说这些度量标准回答了有关分类器的不同问题:

  • 敏感性:真正属于C类的案件中有多少被认为是这样的?
  • 特殊性:真正属于C类的案件中有百分之几被认为是这样?
  • 正预测值:给定分类器预测C类,此预测正确的概率是多少?
  • 负预测值:如果分类器预测该案例不是 C类,则该预测正确的概率是多少?

这些问题通常允许制定分类器必须有用的规范。

从分类器的实际应用的角度来看,预测值通常更重要:它们取决于预测,这就是您应用分类器时的情况(患者通常对了解分类器的可能性不感兴趣。测试是为了识别患病病例,而是确定的诊断是正确的可能性)。但是,为了正确地计算它们,您需要知道分类器所使用的总体中不同类别的相对频率(似乎您拥有此信息-因此没有什么可以阻止您查看此信息)。

您还可以查看正面或负面的预测为您提供的信息增益。这由正负似然比LR⁺和LR⁻来衡量。简而言之,他们告诉您预测在多大程度上改变了所讨论课程的几率。(有关详细说明,请参见此处回答

对于您的琐碎分类器,事情看起来像这样:我将使用“ 0”类作为所讨论的类,因此“正”表示类“ 0”。在100个案例中,有100个被预测为阳性(属于0类)。他们中有97人确实有3人没有。0级的敏感度为100%(所有97个确实属于0级的病例均被识别),特异性为0(其他所有病例均未被识别)。正预测值(假设相对频率为97:3代表)为97%,由于未发生负预测,因此无法计算负预测值。

大号[R+=灵敏度1个-特异性=1个
大号[R-=1个-灵敏度特异性=00
现在,LR⁺和LR⁻是乘积乘以正数类别(“ 0”)的几率的因子。具有1只LR⁺意味着积极的预测没有给你任何信息:它不会改变的可能性。因此,这里有一个措施可以清楚地表达一个事实,即琐碎的分类器不会添加任何信息


完全不同的思维方向:您提到要评估不同的分类器。这听起来有点像分类器比较或选择。我上面讨论的方法的警告是,如果您在“硬”类标签上对它们进行评估,则它们将具有非常高的随机不确定性(意味着您需要大量测试用例)。如果您的预测主要是连续的(度量,例如后验概率),则可以使用针对相同类型问题的相关度量,但不使用部分案例,而是使用连续度量,请参见此处。这些也将更适合于检测预测中的细微差异。

(@FrankHarrell会告诉您您需要“适当的评分规则”,因此这是另一个要记住的搜索词。)


3

首先:所有命中是否同样重要,所有未命中是否同样重要?如果是这样,那么对您的null模型进行的评分没有问题,这没有错:这只是一个极好的解决方案。

如果您发现在预测1时具有良好的性能很重要,则可以改用F度量。基本上,它是召回率(实际1的哪些部分已被预测为1)和精度(预测的1的哪些部分实际上是1)的谐波均值。为了使模型在此度量上得分高,它需要:

  1. 找到大多数的1。
  2. 实际为0时,通常不会预测1。

它需要同时执行这两项操作。即使您的模型仅以几乎完美的方式完成了其中两个中的一个,但如果不满足其他要求,它的得分也会很低。 https://zh.wikipedia.org/wiki/F1_score


这是不正确的评分规则,仅使用预测中的1位信息。伪造模型会优化不正确的评分规则。
Frank Harrell

2

我很高兴@cbeleites开门了。 C-index,在二进制的特殊情况下恰好等于ROC面积 ÿ,很好地总结了预测性歧视。ROC曲线本身具有较高的墨水:信息比率,但是曲线下的面积(因为它等于一致性概率)具有许多不错的功能,其中之一就是它独立于ÿ=1个 因为它取决于 ÿ。这不太恰当(使用广义[R2 测度或似然比 χ2 来实现这一点),并且不够敏感,无法用来比较两个模型,这是单个模型的不错总结。


1

通常使用接收器工作特性(ROC)http://en.wikipedia.org/wiki/Receiver_operating_characteristic曲线和相关计算(即曲线下面积AUC)。基本上,您想象您的分类器给出了连续的响应(例如0到1之间),并且随着决策阈值在0到1之间变化,您绘制了灵敏度与误报率(1-特异性)的关系图。这些是专门为罕见事件(发现敌人)而设计的飞机?)。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.