在许多情况下,您可能需要训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的均值分类误差(即在双重嵌套的交叉验证之后),有时还会给出该分割误差的方差。但是,仅凭这一点还不足以说一个分类器明显优于另一个分类器。我已经看到许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等。
应该使用什么方法确定统计显着性?这个问题的根本是:我们应该对分类分数的分布做出什么假设?
在许多情况下,您可能需要训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的均值分类误差(即在双重嵌套的交叉验证之后),有时还会给出该分割误差的方差。但是,仅凭这一点还不足以说一个分类器明显优于另一个分类器。我已经看到许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等。
应该使用什么方法确定统计显着性?这个问题的根本是:我们应该对分类分数的分布做出什么假设?
Answers:
除了@jb。的出色答案外,让我补充说,您可以在同一测试集上使用McNemar的测试来确定一个分类器是否明显优于另一个分类器。这仅适用于分类问题(McNemar的原始工作称为“二分性状”),这意味着分类器对或错,中间没有空格。
由于分类错误的分布是二进制分布(分类错误或没有分类)---我说使用卡方并不明智。
同样,仅比较在相同数据集上使用的分类器的效率是明智的---“没有免费午餐定理”指出,所有模型在所有数据集上的平均效率相同,因此哪种模型更好看将取决于哪个数据集。选择培训他们http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization。
如果您要比较模型A和B与数据集D的效率,我认为平均效率+平均值就足以做出选择。
而且,如果一个模型具有许多具有合理效率(并且彼此线性独立)的模型,我宁愿构建集成模型,而不是仅仅选择最佳模型。
我推荐汤姆·迪特里希(Tom Dietterich)撰写的论文,题为“用于比较监督分类学习算法的近似统计测试”。这是CiteSeer上的论文简介:http ://citeseer.ist.psu.edu/viewdoc/summary?doi= 10.1.1.37.3325。摘自摘要:“本文回顾了五种近似统计测试,以确定一种学习算法在特定学习任务上是否优于另一种学习算法。将这些测试进行实验比较,以确定在没有差异的情况下错误检测差异的可能性(I型错误) )。...McNemar的测试显示出低的I型错误。...“
恕我直言,分数的分配与其他任何类型的数据的分配之间应该没有任何区别。因此,基本上,您需要检查的是您的数据是否正常分发,请参见此处。此外,有迹象表明,这个问题看彻底解决大书在这里(即在短:他们都测试二分类的结果是显著不同..如果他们这样做,他们可以组合成一个-集成模型)