在不同样本量下测量不同分类器的性能

12

我目前正在对从文本中提取的各种实体使用几种不同的分类器，并将精度/召回率用作总结每个单独的分类器在给定数据集中的表现的摘要。

我想知道是否存在一种有意义的方式来以类似方式比较这些分类器的性能，但是该方法还考虑了要分类的测试数据中每个实体的总数？

目前，我正在使用精度/召回率作为性能指标，因此可能会有类似以下内容：

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

但是，我正在运行这些数据集的数据集中可能包含10万员工，5000家公司，500种奶酪和1个鸡蛋。

那么，我是否可以在上表中添加一个汇总统计信息，其中还考虑了每个项目的总数？还是有某种方法可以衡量一个事实，例如，仅使用一个数据项，Egg分类器上的100％prec / rec可能就没有意义？

假设我们有数百个这样的分类器，我想我正在寻找一种很好的方法来回答诸如“哪些分类器表现不佳？哪些分类器缺乏足够的测试数据来判断它们是否表现不佳？”之类的问题。

classification performance

— 戴夫·查利斯
source

如果您对不同的数据集训练了不同的分类器，那么如何以有意义的方式比较它们呢？苹果和橘子，粉笔和奶酪浮现在脑海。另外，如果您有多类分类器，如何计算精度和召回率？即使知道N = 1也不一定有帮助-如果世界上只有一个鸡蛋，那么您的鸡蛋分类器就可以了。

— 2014年

它们是在相同的数据集上训练的不同分类器，例如，我们知道我们有一个有关苹果和橙子的文档，因此我们可以在其上运行一个苹果分类器来确定它所谈论的苹果类型，并使用一个橙色分类器来确定橙色的类型。它谈论。如果我们的文档中关于苹果的文档占99％，关于橙子的文档占1％，并且两个分类器的prec / rec相同（混淆矩阵上的行数/列数相加），那么我们可以提供考虑到每种成分数量差异的任何信息吗？？（可能是不，没有，这是我很满意的答案）

— Dave Challis 2014年

5

您需要查看统计的置信区间。这有助于衡量统计数据中的不确定性，这在很大程度上取决于样本量。

— 克里斯托弗·洛登（Christopher Louden）
source

2

我认为，当大小差异很大时，很难比较性能。在此链接上（请在Wikipedia http://en.wikipedia.org/wiki/Effect_size中查看此处），您可能会看到不同的策略。

我建议的一个是与差异有关的一个。例如，考虑分类器（100％）和人员分类器（65％）的性能。您使用前一个分类器提交的最小错误为100％。但是，使用后一个分类器可以犯的最小错误是10e-5。

因此，比较分类器的一种方法是牢记以下三个规则（http://en.wikipedia.org/wiki/Rule_of_three_(statistics），您可以在其中比较效果及其可变性。

其他可能性是F-measure，它是Precision和Recall的组合，并且在某种程度上与效果大小无关。

— 阿德桑托斯
source

2

类别中的数据数量有时称为support分类器的。它表明您可以信任您的结果多少，例如p值将允许您信任或不信任某些测试。

您可以使用的一种方法是计算多个分类器性能指标，不仅包括准确性和召回率，还包括真实的阳性率，假阳性率，特异性，敏感性，阳性可能性，阴性可能性等，并查看它们是否彼此一致。。根据我的经验，如果一项措施达到最大程度（100％）而另一项措施没有达到最大值，则通常表明出现了问题（例如，不良支持，琐碎的分类器，有偏性的分类器等）。请参阅此以获取分类器性能指标的列表。

— 达米安弗朗索瓦
source