Answers:
如果您只训练分类器一次,我可能会选择McNemar的测试。大卫·巴伯(David Barber)还建议了一种比较整洁的贝叶斯测试,对我来说似乎很优雅,但是并未得到广泛使用(在他的书中也提到了这一点)。
正如彼得·弗洛姆(Peter Flom)所说,仅通过观察性能和样本大小的差异,答案几乎肯定是“是的”(我引用的数字是测试集性能,而不是训练集性能)。
顺便说一句,Japkowicz和Shah最近有一本关于“评估学习算法:分类的观点”的书,我没有读过,但对于这类问题,它似乎是有用的参考。
我可以告诉您,即使不执行任何操作,差异在统计上也将非常显着。它通过IOTT(眼外伤测试-击中您的眼睛)。
但是,如果您确实想进行测试,则可以将其作为两个比例的测试来进行-可以使用两个样本的t检验来完成。
不过,您可能希望将“准确性”分解为各个组成部分;敏感性和特异性,或假阳性和假阴性。在许多应用中,不同错误的代价是完全不同的。
由于在这种情况下,准确度是正确分类的样本比例,因此我们可以应用关于两个比例系统的假设检验。
让p 1和p 2是分别从分类器1和2中获得的精度,和Ñ是样本的数目。在分类器1和2中正确分类的样本数分别为x 1和x 2。
测试统计量由下式给出
哪里
The rejection region is given by
(if true reject and accept )
where is obtained from a standard normal distribition that pertains to a level of significance, . For instance for 5% level of significance. This means that if the relation is true, then we could say with 95% confidence level () that classifier 2 is more accurate than classifier 1.
References: