基于精度/召回率/ F1的重要性检验


12

是否可以仅基于精度/召回率/ F1分数进行显着性检验?

例如,如果您在一篇论文中遇到两个仅报告P / R / F1的系统(在同一数据集等上),那么您可以执行统计显着性检验吗?如果是,那该怎么做?

Answers:


4

直观地讲,在较小的数据集或非常统一/可预测的数据集上获得较高的P / R / F1可能比在较大或更混乱的数据集上获得较高的P / R / F1容易。因此,在更大,更混乱的数据集上P / R / F1的改善更为显着。

按照这种直觉,您可能需要访问“黑匣子”方法的输出,以便在考虑结果集中的大小和多样性的同时测量结果分布的差异。仅P / R / F1信息太少。

在这种情况下,重要性测试通常是通过形成零假设(两种算法始终产生相同的输出),然后计算观察到的输出差值(如果算法确实相同)而得出的概率。例如,如果概率小于.05,则您拒绝原假设,并得出结论认为改进显着。

本文进行了相关讨论:http : //www.aclweb.org/anthology/C00-2137

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.