测试分类结果的重要性的正确方法是什么


21

在许多情况下,您可能需要训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的均值分类误差(即在双重嵌套的交叉验证之后),有时还会给出该分割误差的方差。但是,仅凭这一点还不足以说一个分类器明显优于另一个分类器。我已经看到许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等。

应该使用什么方法确定统计显着性?这个问题的根本是:我们应该对分类分数的分布做出什么假设?


2
您能否在示例论文中张贴以下内容:“我已经看到了许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等”?我对此真的很感兴趣。
jb。

Answers:


8

除了@jb。的出色答案外,让我补充说,您可以在同一测试集上使用McNemar的测试来确定一个分类器是否明显优于另一个分类器。这仅适用于分类问题(McNemar的原始工作称为“二分性状”),这意味着分类器对或错,中间没有空格。


在分类器可以通过的情况下该怎么办?正如它所说的,它不知道。那你还能用麦克尼马尔的测验吗?
S0rin 2014年

5

由于分类错误的分布是二进制分布(分类错误或没有分类)---我说使用卡方并不明智。

同样,仅比较在相同数据集上使用的分类器的效率是明智的---“没有免费午餐定理”指出,所有模型在所有数据集上的平均效率相同,因此哪种模型更好看将取决于哪个数据集。选择培训他们http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization

如果您要比较模型A和B与数据集D的效率,我认为平均效率+平均值就足以做出选择。

而且,如果一个模型具有许多具有合理效率(并且彼此线性独立)的模型,我宁愿构建集成模型,而不是仅仅选择最佳模型。


但是对于单个分类器,您最终会获得一组分数(例如,MSE超过100个拆分),例如,该分数可能在[0,1]范围内。我认为获取每个运行结果并对其进行分析将过于昂贵。
tdc 2012年

是。但是在这种情况下,mean + stddev足以测试一个方法是否明显优于另一个方法,就像其他任何测量方法一样。
jb。

2
我不确定。Mean&stddev假设开始时是高斯性,其次它不考虑进行了多少比较(例如,可能需要Bonferroni校正
tdc 2012年

1
基本计量理论也是一样。假设我们有一个千分尺,我们要检查两个杆的直径是否相同,我们对这两个杆进行100次测量,并检查均值+ stddev是否重叠。在这两种情况下(杆测量和模型求模),我们仅假设结果的高斯分布,只有明智的论点是中心极限定理
jb。

3

我推荐汤姆·迪特里希(Tom Dietterich)撰写的论文,题为“用于比较监督分类学习算法的近似统计测试”。这是CiteSeer上的论文简介:http ://citeseer.ist.psu.edu/viewdoc/summary?doi= 10.1.1.37.3325。摘自摘要:“本文回顾了五种近似统计测试,以确定一种学习算法在特定学习任务上是否优于另一种学习算法。将这些测试进行实验比较,以确定在没有差异的情况下错误检测差异的可能性(I型错误) )。...McNemar的测试显示出低的I型错误。...“


2

恕我直言,分数的分配与其他任何类型的数据的分配之间应该没有任何区别。因此,基本上,您需要检查的是您的数据是否正常分发,请参见此处。此外,有迹象表明,这个问题看彻底解决大书在这里(即在短:他们都测试二分类的结果是显著不同..如果他们这样做,他们可以组合成一个-集成模型)


我认为它们很有可能无法正常分发。在通常情况下,分数将是正数,并且会偏向该范围的一端(1或0,取决于您是使用精度还是误差作为度量)。
tdc 2012年

@tdc:这种情况下的功能分布(错误分类数)->(具有错误分类数的模型数)通常是恕我直言,类似于泊松分布。
jb。

@Dov:测试哪种模型明显更好(这是OP问题),并测试它们是否不同是完全不同的事情。
jb。

@jb。谢谢。但是我说明显不同,不是更好...
Dov 2012年

@Dov您的第一个链接已损坏-我无法确定它的指向。
Tamzin Blake

2

没有适用于所有情况的单个测试。我可以推荐Nathalie Japkowicz和Mohak Shah所著的“评估学习算法”一书,剑桥大学出版社,2011年。关于这一主题可以写近400页的书这一事实表明,这不是直截了当的问题。我经常发现没有一种测试真正适合我的学习需求,因此,掌握最终使用的任何方法的优缺点非常重要。

一个常见的问题是,对于大型数据集,可能会获得统计上显着的差异,而效果大小却没有实际意义。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.