Answers:
直观地讲,在较小的数据集或非常统一/可预测的数据集上获得较高的P / R / F1可能比在较大或更混乱的数据集上获得较高的P / R / F1容易。因此,在更大,更混乱的数据集上P / R / F1的改善更为显着。
按照这种直觉,您可能需要访问“黑匣子”方法的输出,以便在考虑结果集中的大小和多样性的同时测量结果分布的差异。仅P / R / F1信息太少。
在这种情况下,重要性测试通常是通过形成零假设(两种算法始终产生相同的输出),然后计算观察到的输出差值(如果算法确实相同)而得出的概率。例如,如果概率小于.05,则您拒绝原假设,并得出结论认为改进显着。
本文进行了相关讨论:http : //www.aclweb.org/anthology/C00-2137