1
我应该基于微观平均评估还是宏观平均评估措施做出决策?
我对具有相同数据集的不同二进制分类算法进行了10倍交叉验证,并获得了微观和宏观平均结果。应该提到的是,这是一个多标签分类问题。 在我的情况下,真负数和真正数的权重相等。这意味着正确预测真实负值与正确预测真实正值同样重要。 微观平均指标低于宏观平均指标。这是神经网络和支持向量机的结果: 我还使用另一种算法对同一数据集进行了百分比分割测试。结果是: 我希望将百分比拆分测试与宏观平均结果进行比较,但这公平吗?我不认为宏观平均结果会偏误,因为真实的正数和真实的负数的权重相等,但是再说一次,我想知道这是否与将苹果与桔子进行比较相同? 更新 基于这些评论,我将展示如何计算微观和宏观平均值。 我要预测144个标签(与要素或属性相同)。计算每个标签的精度,召回率和F量度。 --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? | .. | ? --------------------------------------------------- 考虑二进制评估度量B(tp,tn,fp,fn),该度量是基于真实肯定(tp),真实否定(tn),错误肯定(fp)和错误否定(fn)计算的。特定度量的宏观和微观平均值可以计算如下: 使用这些公式,我们可以计算出微观和宏观平均值,如下所示: 因此,微平均测度将所有tp,fp和fn(针对每个标签)相加,然后进行新的二进制评估。宏平均度量将所有度量(精度,召回率或F度量)相加并除以标签数,这更像是平均值。 现在,问题是使用哪个?