Answers:
回想一下,精度和召回率定义为:
因此,我们有两个具有相同分子但分母不同的数量,我们希望取它们的平均值。我们做什么?好吧,我们可以翻转它们,取它们的反函数。然后,您可以将它们添加在一起。因此它们是“右侧朝上”,您将再次取反。
反转然后再次反转的过程将“常规”均值转换为谐波均值。它只是恰巧的准确率和查调和平均值是 F1的统计量。在处理速率时,通常使用谐波平均值代替标准算术平均值,就像我们在这里所做的那样。
最后,F1统计量只是精确度和召回率的平均值,您可以使用它,因为您不想选择一个或另一个来评估模型的性能。
简短的答案是:您不会期望两个具有两个不同分母的百分比的总和具有任何特定含义。因此,采取平均度量方法,例如F1,F2或F0.5。后者至少保留一个百分比的属性。他们的意思呢?
“精确度”和“召回率”作为单独的度量标准的优点在于它们易于解释,并且易于面对模型的业务目标。精度测量按模型true positives
分类的所有案例中的百分比positive
。召回率衡量true positives
模型在所有true
情况下发现的百分比。对于许多问题,您将不得不在优化精度或查全率之间进行选择。
任何平均量度都会放松上述解释,并归结为您最喜欢的量度。F1表示您不知道自己是喜欢Recall还是Precision,或者将相等的权重赋予它们。如果您认为Recall比Precision更重要,那么您还应该在平均值计算(例如F2)中为其分配更高的权重,反之亦然(例如F0.5)。
将两者相加是一个不好的措施。如果您将所有内容都标记为肯定,您将获得至少1分,因为根据定义,这是100%的召回率。而且,您还将获得一些精确的碰撞。F1中使用的几何平均值强调了薄弱环节,因为它是可乘的。您必须至少在精度和召回率方面都做得不错,才能获得不错的F1分数。
F1分数在严重不对称概率的情况下尤其有价值。
考虑以下示例:我们测试一种罕见但危险的疾病。假设在一个1.000.000人的城市中,只有100人被感染。
测试A检测所有这100个阳性结果。但是,它也有50%的假阳性率:错误地显示了另外500.000人患病。
同时,测试B错过了10%的感染,但只给出了1.000假阳性(0.1%假阳性率)
让我们计算分数。对于测试A,精度将有效为0;否则,精度为0。召回率将精确为1。对于测试B,精度仍将很小,约为0.01。召回率等于0.9。
如果我们天真地对精度进行求和或取算术平均值并进行回忆,则测试A的结果为1(0.5),测试B的结果为0.91(0.455)。因此,测试A似乎要好一些。
但是,如果从实际的角度来看,测试A是毫无价值的:如果一个人被测试为阳性,那么他真正生病的机会是50.000中的1!测试B具有更实际的意义:您可以将1.100人带到医院并对其进行密切观察。F1分数可以准确地反映出这一点:对于测试A,它将接近0.0002,对于测试B:(0.01 * 0.9)/(0.01 + 0.9)= 0.0098,这仍然很差,但大约好50倍。
分数值与实际意义之间的这种匹配才使F1分数有价值。
通常,最大化几何均值会强调相似的值。例如,采用两个模型:第一个模型具有(精度,召回率)=(0.8,0.8),第二个模型具有(精度,召回率)=(0.6,1.0)。使用代数均值,两个模型将是等效的。使用几何均值,第一个模型会更好,因为它不会为召回而牺牲精度。