Answers:
您走在正确的轨道上。
但是对于机器学习分类的典型应用,可以做出更强有力的陈述。对于任何固定的“基础事实”,这两个度量始终是正相关的。也就是说,如果一个度量标准下的分类器A优于B,则另一个度量标准下的分类器B也要优于B。
因此,很容易得出结论,两个指标在功能上是等效的,因此它们之间的选择是任意的,但并不是那么快!当根据一组推论得出平均分数时,问题就来了。然后量化当差出现如何更糟糕分级B比对于任何一个给定的情况下。
通常,即使IoU度量标准都可以同意一个实例是不良的,但IoU指标往往会定量地对较差分类的单个实例进行罚分,而不是对F分数进行定量处罚。与L2可以比L1惩罚最大的错误类似,IoU度量倾向于相对于F分数对错误产生“平方”效应。因此,F得分倾向于衡量更接近平均性能的指标,而IoU得分倾向于衡量最接近最差性能的指标。
例如,假设分类器A的绝大多数推论要比B适度好,但其中一些分类器在使用分类器A时要明显差一些。分类器B.
可以肯定的是,这两个指标之间的相似之处远大于相同之处。但是,从对许多推论取平均值的角度来看,他们两个都遭受另一个不利条件:他们都高估了几乎没有或没有实际的地面真理肯定集的集合的重要性。在图像分割的常见示例中,如果图像仅具有某个可检测类别的单个像素,并且分类器检测到该像素和另一个像素,则其F得分低至2/3,IoU甚至更差为1 / 2。诸如此类的琐碎错误会严重支配一组图像的平均得分。简而言之,它与选择的/相关的组的大小成反比地加权每个像素误差,而不是同等地对待它们。
FN。
"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."
2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."