我目前正在对从文本中提取的各种实体使用几种不同的分类器,并将精度/召回率用作总结每个单独的分类器在给定数据集中的表现的摘要。
我想知道是否存在一种有意义的方式来以类似方式比较这些分类器的性能,但是该方法还考虑了要分类的测试数据中每个实体的总数?
目前,我正在使用精度/召回率作为性能指标,因此可能会有类似以下内容:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
但是,我正在运行这些数据集的数据集中可能包含10万员工,5000家公司,500种奶酪和1个鸡蛋。
那么,我是否可以在上表中添加一个汇总统计信息,其中还考虑了每个项目的总数?还是有某种方法可以衡量一个事实,例如,仅使用一个数据项,Egg分类器上的100%prec / rec可能就没有意义?
假设我们有数百个这样的分类器,我想我正在寻找一种很好的方法来回答诸如“哪些分类器表现不佳?哪些分类器缺乏足够的测试数据来判断它们是否表现不佳?”之类的问题。