基于精度/召回率/ F1的重要性检验

是否可以仅基于精度/召回率/ F1分数进行显着性检验？

例如，如果您在一篇论文中遇到两个仅报告P / R / F1的系统（在同一数据集等上），那么您可以执行统计显着性检验吗？如果是，那该怎么做？

statistical-significance precision-recall

— 瓦姆
source

直观地讲，在较小的数据集或非常统一/可预测的数据集上获得较高的P / R / F1可能比在较大或更混乱的数据集上获得较高的P / R / F1容易。因此，在更大，更混乱的数据集上P / R / F1的改善更为显着。

按照这种直觉，您可能需要访问“黑匣子”方法的输出，以便在考虑结果集中的大小和多样性的同时测量结果分布的差异。仅P / R / F1信息太少。

在这种情况下，重要性测试通常是通过形成零假设（两种算法始终产生相同的输出），然后计算观察到的输出差值（如果算法确实相同）而得出的概率。例如，如果概率小于.05，则您拒绝原假设，并得出结论认为改进显着。

— 巴勃罗·门德斯
source