我已经使用多个分类器对2类标签数据进行了分类,并且使用了5倍交叉验证。对于每一次折叠,我都计算了tp,tn,fp和fn。然后,我计算了每个测试的准确性,准确性,召回率和F分数。我的问题是,当我想对结果进行平均时,我对精度进行了平均,但我是否也可以对精度,查全率和F评分进行平均?还是这在数学上是错误的?PS在每个类中使用的数据集在每个类的实例数方面都非常均衡。
谢谢。
3
我在使用交叉验证计算F测度(精度和查全率的调和平均值)时遇到了同样的问题。在本文中,他们实际上证明了在完整集上计算F度量(而不是取平均值)是偏差较小的方法。我希望这会有所帮助
—
papafe
@markusian请添加为答案!这是迄今为止此页面上最重要的事情!!
—
drevicko '16