如何解释F度量值?


41

我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。

例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗?


2
我不确定您能说什么,因为F量度是精度和召回率的函数:en.wikipedia.org/wiki/F1_score。不过,您可以进行数学运算,并保持一个(精度或查全率)恒定不变,并对另一个保持不变。
尼克,

Answers:


41

我无法想到F度量的直观含义,因为它只是一个组合度量。当然,比F-mesure更直观的是精度和召回率。

但是使用两个值,我们通常无法确定一种算法是否优于另一种算法。例如,如果一种算法比另一种算法具有更高的精度,但召回率较低,那么您如何分辨哪种算法更好呢?

如果您有一个特定的目标,例如“精密为王。我不在乎召回”,那么就没有问题。精度越高越好。但是,如果您没有如此强大的目标,则需要一个组合指标。那是F-措施。通过使用它,您将比较精度和召回率。

经常画出ROC曲线说明F度量。您可能会发现这篇文章很有趣,因为其中包含对包括ROC曲线在内的几种度量的解释:http : //binf.gmu.edu/mmasso/ROC101.pdf


23

F1分数的重要性因情况而异。假设目标变量是二进制标签。

  • 平衡班级:在这种情况下,F1分数可以有效地忽略,错误分类率是关键。
  • 不平衡的类,但两个类都很重要:如果类分布高度偏斜(例如80:20或90:10),则分类器仅通过选择多数类即可获得较低的误分类率。在这种情况下,我会选择在两个类别上均获得较高F1分数且分类错误率较低的分类器。F1分数较低的分类器应被忽略。
  • 班级不平衡,但一个班级比另一个班级更重要。例如,在欺诈检测中,与标记非欺诈实例相比,正确标记一个实例为欺诈实例更为重要。在这种情况下,我将选择仅在重要班级上具有良好F1分数的分类器。回想一下,每个班级都有F1分数。

9

F度量具有直观的含义。它告诉您分类器的精确度(正确分类的实例数)以及分类器的健壮性(不会丢失大量实例)。

由于分类精度很高,但召回率很低,因此您的分类器非常准确,但是会遗漏大量难以分类的实例。这不是很有用。

看看这个直方图。在此处输入图片说明忽略其原始目的。

朝着正确的方向,您可以获得高精度,但召回率较低。如果我只选择得分高于0.9的实例,那么我的分类实例将非常精确,但是我会错过很多实例。实验表明,此处的最佳点约为0.76,其中F度量为0.87。


5

F量度是您精度和召回率的谐波平均值。在大多数情况下,您需要在精度和召回率之间进行权衡。如果优化分类器以增加一个分类器而不是另一个分类器,则谐波均值会迅速降低。但是,当精度和召回率相等时,这是最大的选择。

给定分类器的F量度为0.4和0.8,您可以预期这些量度是在权衡查准率和查全率时达到的最大值。

为了提供视觉参考,请看一下Wikipedia的此图:

在此处输入图片说明

F度量是HAB是召回率和精度。您可以增加一个,但另一个减少。


我发现“越过阶梯”的可视化效果更加直观-对我而言,它使A = B的相等性导致最大的H更加直观
Coruscate5

3

F测度的公式(F1,β= 1)与给出等效电阻的公式相同,该等效电阻由物理上平行放置的两个电阻组成(忽略因子2)。

这可能为您提供可能的解释,并且您可以考虑电子电阻或热阻。这个类比将F量度定义为由平行放置的灵敏度和精度形成的等效电阻。

对于F测度,最大可能值为1,并且只要他的两个电阻之一也释放电阻,即会释放电阻(也就是,获得小于1的值)。如果您想更好地了解此数量及其动态,请考虑一下物理现象。例如,似乎F度量<= max(灵敏度,精度)。


3

由于y轴的精度和x轴的召回率,在(1,1)处的水平曲线的斜率为。Fβ1/β2

给定和,令为假阴性成本与假阳性成本之比。然后,总错误成本与成比例因此,水平曲线在(1,1)处的斜率为。因此,对于使用好的模型而言,您认为误报成本是误报的两倍。

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2


0

f1得分最接近的直观含义被认为是召回率和精确度的平均值。让我们为您清除它:

在分类任务中,您可能计划构建具有高精度AND调用率的分类器。例如,一个分类器,告诉一个人是否诚实。

为了精确起见,您通常可以准确地确定给定组中有多少诚实的人。在这种情况下,当关心高精度时,您会认为可以将说谎者误分类为诚实的人,但这种情况并不常见。换句话说,在这里您试图从整个诚实群体中识别出说谎者。

但是,为了回想起,如果您认为说谎者是诚实的,那么您将非常担心。对您来说,这将是巨大的损失,而且是一个很大的错误,您不想再做一次。同样,如果您将诚实的人归类为说谎者也是可以的,但是您的模型绝不(或者大体上不应该)声称说谎者为诚实的人。换句话说,这里您将重点放在特定的类上,并且尝试不致于犯错误。

现在,让我们假设您的模型(1)准确地从说谎者中识别诚实(精确)(2)识别两个班级中的每个人(召回)。这意味着您将选择在两个指标上均能良好运行的模型。

然后,您的模型选择决策将尝试根据两个指标的平均值来评估每个模型。F-Score是最好的描述。让我们看一下公式:

回想一下:p = tp /(tp + fp)

回想一下:r = tp /(tp + fn)

F分数:fs分数= 2 /(1 / r + 1 / p)

如您所见,召回率精度越高,F得分越高。


0

知道F1分数是精确度和查全率的谐和平均值,因此下面简要介绍它们。

我想说召回更多地是关于假阴性。即,具有更高的召回率意味着更少的假阴性

Recall=tptp+fn

尽可能少的FN或零FN表示,您的模型预测确实很好。

更高的“精度”意味着更少的“ 假阳性”

Precision=tptp+fp

同样,误报少或为零意味着模型预测确实很好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.