使用交叉验证时平均精度和召回率


11

我已经使用多个分类器对2类标签数据进行了分类,并且使用了5倍交叉验证。对于每一次折叠,我都计算了tp,tn,fp和fn。然后,我计算了每个测试的准确性,准确性,召回率和F分数。我的问题是,当我想对结果进行平均时,我对精度进行了平均,但我是否也可以对精度,查全率和F评分进行平均?还是这在数学上是错误的?PS在每个类中使用的数据集在每个类的实例数方面都非常均衡。

谢谢。


3
我在使用交叉验证计算F测度(精度和查全率的调和平均值)时遇到了同样的问题。在本文中,他们实际上证明了在完整集上计算F度量(而不是取平均值)是偏差较小的方法。我希望这会有所帮助
papafe

3
@markusian请添加为答案!这是迄今为止此页面上最重要的事情!!
drevicko '16

Answers:


2

该 -score,假设你使用通常的定义,已经是精度和召回的组合。具体来说,它是它们的谐波均值。换句话说,的意思是捕获系统的“有效性”,用户对精度和召回率给予同等的重视。有一个扩展名为得分,它使权重比精确倍。 开另一方面,如果您要问是否可以平均5˚F 1 = 2 精度召回F ˚Fββ˚Fβ=1+β2精度召回

F1=2precisionrecallprecision+recall
Fββ ˚F
Fβ=(1+β2)precisionrecall(β2precision)+recall
F得分(每折一次),那么答案是肯定的。实际上,这是报告系统性能的典型方法!

请注意,使用这些值来推断分类器的泛化错误存在一些问题。例如,一个 -test之间分数一个分类和得分另一个分类将是过于乐观。˚F ˚FtFF


是的,我使用了第一个公式。这意味着对不同测试的F分数求平均值所得到的结果与对精度和查全率求平均值,然后根据它们计算F分数的结果相似。我根据获得的结果进行了尝试,结果几乎相同。谢谢。
卡拉吉
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.