使用交叉验证时平均精度和召回率

我已经使用多个分类器对2类标签数据进行了分类，并且使用了5倍交叉验证。对于每一次折叠，我都计算了tp，tn，fp和fn。然后，我计算了每个测试的准确性，准确性，召回率和F分数。我的问题是，当我想对结果进行平均时，我对精度进行了平均，但我是否也可以对精度，查全率和F评分进行平均？还是这在数学上是错误的？PS在每个类中使用的数据集在每个类的实例数方面都非常均衡。

谢谢。

classification cross-validation precision-recall

— 卡拉吉
source

我在使用交叉验证计算F测度（精度和查全率的调和平均值）时遇到了同样的问题。在本文中，他们实际上证明了在完整集上计算F度量（而不是取平均值）是偏差较小的方法。我希望这会有所帮助

— papafe

@markusian请添加为答案！这是迄今为止此页面上最重要的事情！！

— drevicko '16

该 -score，假设你使用通常的定义，已经是精度和召回的组合。具体来说，它是它们的谐波均值。换句话说，的意思是捕获系统的“有效性”，用户对精度和召回率给予同等的重视。有一个扩展名为得分，它使权重比精确倍。开另一方面，如果您要问是否可以平均5 $F$

F_{1} = 2 \cdot \frac{precision \cdot recall}{precision + recall}

$F_1 = 2\cdot\frac{\textrm{precision} \cdot \textrm{recall}}{\textrm{precision} + \textrm{recall}}$

F_{β}

$F_\beta$

β

$\beta$

F_{β} = (1 + β^{2}) \frac{precision \cdot recall}{(β^{2} \cdot precision) + recall}

$F_\beta = (1+\beta^2) \frac{\textrm{precision} \cdot \textrm{recall}}{(\beta^2 \cdot\textrm{precision}) + \textrm{recall}}$

F

$F$ 得分（每折一次），那么答案是肯定的。实际上，这是报告系统性能的典型方法！

请注意，使用这些值来推断分类器的泛化错误存在一些问题。例如，一个 -test之间分数一个分类和得分另一个分类将是过于乐观。 $t$ $F$ $F$

— 马特·克劳斯（Matt Krause）
source

是的，我使用了第一个公式。这意味着对不同测试的F分数求平均值所得到的结果与对精度和查全率求平均值，然后根据它们计算F分数的结果相似。我根据获得的结果进行了尝试，结果几乎相同。谢谢。

— 卡拉吉