我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。
例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗?
我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。
例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗?
Answers:
我无法想到F度量的直观含义,因为它只是一个组合度量。当然,比F-mesure更直观的是精度和召回率。
但是使用两个值,我们通常无法确定一种算法是否优于另一种算法。例如,如果一种算法比另一种算法具有更高的精度,但召回率较低,那么您如何分辨哪种算法更好呢?
如果您有一个特定的目标,例如“精密为王。我不在乎召回”,那么就没有问题。精度越高越好。但是,如果您没有如此强大的目标,则需要一个组合指标。那是F-措施。通过使用它,您将比较精度和召回率。
经常画出ROC曲线说明F度量。您可能会发现这篇文章很有趣,因为其中包含对包括ROC曲线在内的几种度量的解释:http : //binf.gmu.edu/mmasso/ROC101.pdf
F1分数的重要性因情况而异。假设目标变量是二进制标签。
F量度是您精度和召回率的谐波平均值。在大多数情况下,您需要在精度和召回率之间进行权衡。如果优化分类器以增加一个分类器而不是另一个分类器,则谐波均值会迅速降低。但是,当精度和召回率相等时,这是最大的选择。
给定分类器的F量度为0.4和0.8,您可以预期这些量度是在权衡查准率和查全率时达到的最大值。
为了提供视觉参考,请看一下Wikipedia的此图:
F度量是H,A和B是召回率和精度。您可以增加一个,但另一个减少。
您可以用 另一种方式写F测度方程式http://e.hiphotos.baidu.com/baike/s%3D118/sign=e8083e4396dda144de0968b38ab6d009/f2deb48f8c5494ee14c095492cf5e0fe98257e84.jpg,例如 因此,当,应该更重要(或更重要)更高)。
f1得分最接近的直观含义被认为是召回率和精确度的平均值。让我们为您清除它:
在分类任务中,您可能计划构建具有高精度AND调用率的分类器。例如,一个分类器,告诉一个人是否诚实。
为了精确起见,您通常可以准确地确定给定组中有多少诚实的人。在这种情况下,当关心高精度时,您会认为可以将说谎者误分类为诚实的人,但这种情况并不常见。换句话说,在这里您试图从整个诚实群体中识别出说谎者。
但是,为了回想起,如果您认为说谎者是诚实的,那么您将非常担心。对您来说,这将是巨大的损失,而且是一个很大的错误,您不想再做一次。同样,如果您将诚实的人归类为说谎者也是可以的,但是您的模型绝不(或者大体上不应该)声称说谎者为诚实的人。换句话说,这里您将重点放在特定的类上,并且尝试不致于犯错误。
现在,让我们假设您的模型(1)准确地从说谎者中识别诚实(精确)(2)识别两个班级中的每个人(召回)。这意味着您将选择在两个指标上均能良好运行的模型。
然后,您的模型选择决策将尝试根据两个指标的平均值来评估每个模型。F-Score是最好的描述。让我们看一下公式:
回想一下:p = tp /(tp + fp)
回想一下:r = tp /(tp + fn)
F分数:fs分数= 2 /(1 / r + 1 / p)
如您所见,召回率和精度越高,F得分越高。