F1 / Dice-Score vs IoU


24

我对F1分数,Dice分数和IoU(联合上方的交集)之间的差异感到困惑。到目前为止,我发现F1和Dice的含义相同(对吗?),IoU的公式与其他两个公式非常相似。

  • F1 /骰子:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

除了F1赋予真实正数更高的权重之外,是否存在任何实际差异或其他值得注意的东西?有一种情况我会用一种而不用另一种吗?


显然,Jaccard系数也与
IoU

如果其中一些(现在为4个)测量仅用于二进制数据,我会特别感兴趣。
pietz '17

Answers:


38

您走在正确的轨道上。

F/2IoUF

IoU/F=1/2+IoU/2

但是对于机器学习分类的典型应用,可以做出更强有力的陈述。对于任何固定的“基础事实”,这两个度量始终是正相关的。也就是说,如果一个度量标准下的分类器A优于B,则另一个度量标准下的分类器B也要优于B。

因此,很容易得出结论,两个指标在功能上是等效的,因此它们之间的选择是任意的,但并不是那么快!当根据一组推论得出平均分数时,问题就来了。然后量化当差出现如何更糟糕分级B比对于任何一个给定的情况下。

通常,即使IoU度量标准都可以同意一个实例是不良的,但IoU指标往往会定量地对较差分类的单个实例进行罚分,而不是对F分数进行定量处罚。与L2可以比L1惩罚最大的错误类似,IoU度量倾向于相对于F分数对错误产生“平方”效应。因此,F得分倾向于衡量更接近平均性能的指标,而IoU得分倾向于衡量最接近最差性能的指标。

例如,假设分类器A的绝大多数推论要比B适度好,但其中一些分类器在使用分类器A时要明显差一些。分类器B.

可以肯定的是,这两个指标之间的相似之处远大于相同之处。但是,从对许多推论取平均值的角度来看,他们两个都遭受另一个不利条件:他们都高估了几乎没有或没有实际的地面真理肯定集的集合的重要性。在图像分割的常见示例中,如果图像仅具有某个可检测类别的单个像素,并且分类器检测到该像素和另一个像素,则其F得分低至2/3,IoU甚至更差为1 / 2。诸如此类的琐碎错误会严重支配一组图像的平均得分。简而言之,它与选择的/相关的组的大小成反比地加权每个像素误差,而不是同等地对待它们。

c0c1 FN。


威廉,我不能要求一个更好的答案。非常感谢您抽出宝贵的时间。
pietz

5
我尝试了使用总误差的方法,只是想补充一下,由于正负之间的持续失衡,它不能很好地工作。想象一下整个图像数据集,其中只有一个像素构成了地面真实分割。神经网络可能很快就知道,使用总误差,空预测总是准确的达到99.9%。与IoU或DSC一起使用时,由于您上述相同的原因,我们迫使网络寻找分段。因此,最终这取决于问题。
pietz

1
有人可以帮我核对下面的两个语句?:1:"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
马特Kleinsmith

1
前者是指单个推理的得分,而后者是指一组推理(例如,一组图像)的平均得分。
willem
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.