结合敏感性和特异性的分类器性能指标?


9

我有2个类别的标签数据,正在使用多个分类器对其进行分类。并且数据集是很好平衡的。在评估分类器的性能时,我需要考虑分类器在确定真实肯定因素和真实否定因素方面的准确性。因此,如果我使用准确性,并且如果分类器偏向正值并将所有分类都归为正值,那么即使它未能对任何真实的负数进行分类,我也会获得约50%的准确性。此属性扩展到精度和召回率,因为它们仅关注一个类,而后又关注F1评分。(这是我什至从本文中了解的内容,例如“ 超越准确性,F分数和ROC:性能评估的判别方法系列 ”)。

因此,我可以使用敏感性和特异性(TPR和TNR)来查看分类器对每个类别的表现,以最大程度地提高这些值为目标。

我的问题是,我正在寻找一种将这两个值组合成一个有意义的量度的量度。我研究了该文件中提供的措施,但是发现它并不简单。基于我的理解,我想知道为什么我们不能应用像F分数这样的东西,但是我不使用精度和召回率而是使用灵敏度和特异性?因此公式为 ,我的目标是最大化这个措施。我觉得它很有代表性。已经有类似的公式吗?这是否有意义,或者在数学上是否合理?

my Performance Measure=2sensitivityspecificitysensitivity+specificity

Answers:


1

我要说的是,可能没有什么特别的措施,或者只有一种措施应该考虑在内。

上一次进行概率分类时,我有一个R包ROCR和False Positive和False Negatives的显式成本值。

我考虑了从0到1的所有截止点,并在选择此截止点时使用了许多措施,例如预期成本。当然,对于分类精度的一般度量,我已经采用了AUC度量。但是对我而言,这不是唯一的可能性。

FP和FN案例的值必须超出您的特定模型,也许这些是某些主题专家提供的?

例如,在客户流失分析中,错误地推断出客户没有搅动可能会更昂贵,但如果不强制将这些价格定位到正确的组,则普遍降低服务价格将很昂贵。

-分析师


实际上,对我而言,这有点相似。因为在我的模型中,FP和FN案件的成本很高。我最终完成了与您建议的“使用多种措施”类似的操作。我计算了每个类别标签的F分数,并评估了模型,我使用了这两个值以及一些使用精度(针对两个类别)的成本函数来计算利润,并从中减去FP和FN案例所造成的损失。
Kalaji 2013年

3

分类准确性,敏感性,特异性以及它们的任何简单组合都是不正确的评分规则。也就是说,它们是通过伪模型进行优化的。使用它们会使您选择错误的功能,赋予错误的权重并做出次优的决策。次优决策的许多方法之一是,当预测概率接近使用这些度量所隐含的阈值时,您将获得虚假置信度。简而言之,这些措施都会出错。使用它们甚至可以比较两个拟合良好的模型也会误导您。


1
我同意您所提到的任何生成的模型都是“伪模型”。但是我仍然需要一种评估其质量的措施,最终选择一个模型。假设已经选择了我的特征(尝试使用具有不同特征集的多个数据集),并且我正在使用5倍交叉验证来确定我的分类器是否过度拟合了数据,那么这些简单的“评分规则”是最有效的在文学中广泛使用。您还建议采取什么其他措施?大多数度量取决于这些值的组合,包括LR +/-,ROC和AUC。
卡拉吉

首先,对于5折简历中使用的5种模型拟合中的每一种,您是否要从头开始重复所有探索/建模步骤?黄金标准质量度量是对数似然和从中得出的对数,例如和偏差。对于二进制这导致对数概率评分规则。在这种情况下,您还可以使用另一个适当的分数,即Brier分数(预测概率的均方误差)。R2Y
Frank Harrell 2013年

根据我的阅读,这适用于我的模型生成概率而非离散值的情况(即,实例属于类0或1而不是输出0或1的概率)。反过来,这与分类器的实现有关,例如,它适用于朴素贝叶斯分类器,但不适用于1-NN分类器。注意,我没有实现分类器,而是在Weka中使用了一些分类器来生成模型。也许我在这里有点困惑。谢谢。
2013年

1
如果您使用的方法没有产生概率,我建议您找到另一种方法。
弗兰克·哈雷尔

如果精确度和敏感性的实际成本之间存在易于理解的差异(不适用于原始职位),为什么您要避免使用这些差异?有偏差的交叉熵误差是否会更可取(例如,(1-c)* log(1-p)项的惩罚加倍?
Max Candocia
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.