我对具有相同数据集的不同二进制分类算法进行了10倍交叉验证,并获得了微观和宏观平均结果。应该提到的是,这是一个多标签分类问题。
在我的情况下,真负数和真正数的权重相等。这意味着正确预测真实负值与正确预测真实正值同样重要。
微观平均指标低于宏观平均指标。这是神经网络和支持向量机的结果:
我还使用另一种算法对同一数据集进行了百分比分割测试。结果是:
我希望将百分比拆分测试与宏观平均结果进行比较,但这公平吗?我不认为宏观平均结果会偏误,因为真实的正数和真实的负数的权重相等,但是再说一次,我想知道这是否与将苹果与桔子进行比较相同?
更新
基于这些评论,我将展示如何计算微观和宏观平均值。
我要预测144个标签(与要素或属性相同)。计算每个标签的精度,召回率和F量度。
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
考虑二进制评估度量B(tp,tn,fp,fn),该度量是基于真实肯定(tp),真实否定(tn),错误肯定(fp)和错误否定(fn)计算的。特定度量的宏观和微观平均值可以计算如下:
使用这些公式,我们可以计算出微观和宏观平均值,如下所示:
因此,微平均测度将所有tp,fp和fn(针对每个标签)相加,然后进行新的二进制评估。宏平均度量将所有度量(精度,召回率或F度量)相加并除以标签数,这更像是平均值。
现在,问题是使用哪个?