使用t检验比较两个分类器准确性结果的统计显着性


17

我想比较两个分类器在统计上的准确性。两个分类器都在同一数据集上运行。这使我相信我应该使用我一直在阅读的样本进行t检验。

例如:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着?

还是我应该使用其他测试?

Answers:


14

如果您只训练分类器一次,我可能会选择McNemar的测试。大卫·巴伯(David Barber)还建议了一种比较整洁的贝叶斯测试,对我来说似乎很优雅,但是并未得到广泛使用(在他的书中也提到了这一点)。

正如彼得·弗洛姆(Peter Flom)所说,仅通过观察性能和样本大小的差异,答案几乎肯定是“是的”(我引用的数字是测试集性能,而不是训练集性能)。

顺便说一句,Japkowicz和Shah最近有一本关于“评估学习算法:分类的观点”的书,我没有读过,但对于这类问题,它似乎是有用的参考。


1
我正在运行10倍交叉验证以获得这些结果。这是否意味着它们实际上是不同的数据集。这就是总大小,将其用于交叉验证中的测试/训练
克里斯(Chris)

4
每折的准确性将不是独立的,这将违反大多数统计检验的假设,但可能不会成为大问题。我经常使用100个随机训练/测试组,然后使用Wilcoxon配对有符号秩测试(两个分类器使用相同的随机组)。我喜欢这种测试,因为我经常使用小的数据集(因为我对过拟合很感兴趣),因此随机拆分之间的差异往往可与分类器之间的性能差异相媲美。
Dikran有袋动物博物馆,2012年

2
(+1),用于Wilcoxon配对签名等级测试(以及该书的链接...如果toc能够履行其诺言,则该书可以成为所有ML的必读内容:O)
2012年

3
我还使用了有符号秩检验以及成对的t检验来比较分类器。但是,每次为此目的我使用单面测试进行报告时,我都会从审阅者那里得到麻烦,因此转而使用两面测试!
格林格林(BGreene)

2
鉴于OP在评论中澄清了该问题实际上是关于交叉验证的,您是否可以考虑扩大答案以涵盖该主题?然后我们可以编辑Q。这是一个重要的主题,有两个非常相关(甚至重复)的问题,但是没有一个很好的答案。在上面的评论中,您建议对CV估算值使用配对测试,并说您不认为非独立性不是一个大问题。为什么不?在我看来,这是一个潜在的大问题!
变形虫说恢复莫妮卡2015年

4

我可以告诉您,即使不执行任何操作,差异在统计上也将非常显着。它通过IOTT(眼外伤测试-击中您的眼睛)。

但是,如果您确实想进行测试,则可以将其作为两个比例的测试来进行-可以使用两个样本的t检验来完成。

不过,您可能希望将“准确性”分解为各个组成部分;敏感性和特异性,或假阳性和假阴性。在许多应用中,不同错误的代价是完全不同的。


同意-这显然很重要。Nitpick:您将使用 -test 测试(大约)两个比例-这与随着n的增加使二项式分布收敛于正态有关。见5.2 en.wikipedia.org/wiki/Statistical_hypothesis_testingzn

再次考虑,根据CLT,检验可能仍然是渐近有效的,但是必须有一个理由通常在这里使用z检验。tz
2012年

2
我在问题中提出的准确率百分比只是一个例子。
克里斯(Chris)

0

由于在这种情况下,准确度是正确分类的样本比例,因此我们可以应用关于两个比例系统的假设检验。

p 1p 2是分别从分类器1和2中获得的精度,和Ñ是样本的数目。在分类器1和2中正确分类的样本数分别为x 1x 2p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

测试统计量由下式给出

Z=p^1p^22p^(1p^)/n 哪里 p^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (null hypothesis stating both are equal)
  • Ha:p1<p2 (alternative hypotyesis claiming the newer one is better than the existing)

The rejection region is given by

Z<zα (if true reject H0 and accept Ha)

where zα is obtained from a standard normal distribition that pertains to a level of significance, α. For instance z0.5=1.645 for 5% level of significance. This means that if the relation Z<1.645 is true, then we could say with 95% confidence level (1α) that classifier 2 is more accurate than classifier 1.

References:

  1. R. Johnson and J. Freund, Miller and Freund’s Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Primary source)
  2. Test of Hypothesis-Concise Formula Summary. (Adopted from [1])

Shouldn't p^ be the average of p^1 and p^2? So the denominator should be 2n in p^=(x1+x2)/2n
Shiva Tp

尽管我同意可以使用比例测试,但原始问题中没有任何一项建议适合进行单面测试。此外,“我们可以说有95%的信心”是一种常见的误解。参见例如此处:metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans

@ShivaTp确实。感谢您指出急需的错字校正。编辑已确认。
EBE艾萨克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.