我应该基于微观平均评估还是宏观平均评估措施做出决策?


21

我对具有相同数据集的不同二进制分类算法进行了10倍交叉验证,并获得了微观和宏观平均结果。应该提到的是,这是一个多标签分类问题。

在我的情况下,真负数和真正数的权重相等。这意味着正确预测真实负值与正确预测真实正值同样重要。

微观平均指标低于宏观平均指标。这是神经网络和支持向量机的结果:

在此处输入图片说明

我还使用另一种算法对同一数据集进行了百分比分割测试。结果是:

在此处输入图片说明

我希望将百分比拆分测试与宏观平均结果进行比较,但这公平吗?我不认为宏观平均结果会偏误,因为真实的正数和真实的负数的权重相等,但是再说一次,我想知道这是否与将苹果与桔子进行比较相同?

更新

基于这些评论,我将展示如何计算微观和宏观平均值。

我要预测144个标签(与要素或属性相同)。计算每个标签的精度,召回率和F量度。

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

考虑二进制评估度量B(tp,tn,fp,fn),该度量是基于真实肯定(tp),真实否定(tn),错误肯定(fp)和错误否定(fn)计算的。特定度量的宏观和微观平均值可以计算如下:

在此处输入图片说明

在此处输入图片说明

使用这些公式,我们可以计算出微观和宏观平均值,如下所示:

在此处输入图片说明

在此处输入图片说明

因此,微平均测度将所有tp,fp和fn(针对每个标签)相加,然后进行新的二进制评估。宏平均度量将所有度量(精度,召回率或F度量)相加并除以标签数,这更像是平均值。

现在,问题是使用哪个?


当您询问使用哪种时,预期用途是什么?在两种方法之间进行选择,汇总结果还是其他?
肖恩·复活节

1
预期用途是确定哪种模型最出色,并告诉其性能如何。我发现,根据:Forman,George和Martin Scholz,微测量的效果更好。“交叉验证研究中的苹果对苹果:分类器性能评估中的陷阱。” ACM SIGKDD勘探通讯12.1(2010):49-57。
Kenci 2015年

@Kenci,我相信您应该将其发布为对自己的问题的答复,并确认它是正确的答案。感谢您的参考!
fnl

Answers:


27

如果您认为所有标签的大小大致相同(实例数量大致相同),请使用任意标签。

如果您认为有与比别人更多的实例标签,如果你想给你的偏见对指标填充的,使用MICROMEDIA

如果您认为有与比别人更多的实例标签,如果你想给你的偏见对指标的最少人口的人(或者至少你不想向人口最多的那些偏差),使用Macromedia的

如果微型媒体的结果明显低于宏媒体的结果,则意味着您在人口最多的标签中存在严重的分类错误,而较小的标签可能已正确分类。如果Macromedia的结果比MICROMEDIA一个显著降低,这意味着你的小标签分类很差,而你的较大的可能是正确分类。

如果您不确定该怎么做,请继续进行微观平均值和宏观平均值的比较:)

这是关于这个主题的好论文。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.