如何统计比较机器学习分类器的性能?


29

基于估计的分类准确性,我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器,我从基本集中随机选择一个训练和测试样本,训练模型并测试模型。每个分类器我都会做十次。因此,每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用?C一种ss一世F一世Ë[R1个C一种ss一世F一世Ë[R2


您是否在相同样本上测试了分类器?即,样品1,C1(样品1),C2(样品1)?还是对每个分类器使用了不同的样本?
约翰·穆勒

在这种情况下,配对t检验是合适的。
GEL 2012年

1
@lewellen:准确性是一个比例:通常适合进行t检验。
cbeleites支持Monica 2012年

3
@JohnMoeller:“比例差异”将是我们不知道的独立或依赖的搜索词。如果配对:McNemar的测试。我猜想t检验意味着样本量很小,因此可能通常的近似不是一个好主意。我将使用“比率和比例的统计方法”来查找详细信息。
cbeleites支持Monica 2012年

2
@JohnMoeller:我说的是每个精度都是一个比例。如果要比较它们,请使用“比例差异”方法。我将其扩展为一个答案,以防止无休止的评论。
cbeleites支持Monica 2012年

Answers:


14

Dietterich说:“对于合理值,二项式分布可以通过正态分布很好地近似。” 到目前为止,您还没有告诉我们您有合理的。@JohnMoeller的30个案例对于常规近似值而言是恕我直言,而很少(至少不了解和)。ññp1个p2
cbeleites支持Monica 2012年

我在基础数据集中每个类至少有4000条记录,因此我选择的样本可以少于此。比例测试差异的最大缺点是它们忽略了“学习算法的内部变化”。我认为这对于我正在使用的分类器(如神经网络)很重要。

好吧,这与JohnMoeller提出的建议完全不同。如果您用“内部变化”来表示模型的不稳定性,则可以进行测量。我将更新我的答案。
cbeleites支持Monica 2012年

为了明确起见,30是我选择测试/训练分区集的次数,而不是我选择的测试点的次数。
约翰·穆勒

@JohnMoeller:对不起,我完全误解了这一点(来自“样本”是某种物理样本的领域)。
cbeleites支持Monica 2012年

10

我手边没有Fleiss书,所以这就是IIRC。

目前在评论中回答@JohnMoeller的问题:原始问题恕我直言,无法原谅。

因此,假设我有30个样本,并在每个样本上测试c1和c2,并记录每个样本的准确性。

这样做,您最终得到一个2 x 2列联表,其中分类器1正确/错误,而分类器2正确/错误。这是麦克尼玛(McNemar)测试的起点。因此,这是用于配对比较的,它比比较“独立”的比例(如果它们来自同一有限样本中的随机抽取不是完全独立的)更强大。

我现在无法查询McNemar的“小字样”,但30个样本并不多。因此,您甚至可能必须从McNemar的测试转换为Fisher的精确测试(或其他方法),以计算二项式概率。


比例的平均值:
不论是用10个测试用例测试一个同一个分类器10x,还是用所有这100个用例测试一次,这没关系(2 x 2表只计算所有测试用例)。

如果通过随机保留或10倍交叉验证或10倍自举获得了原始问题中每个分类器的10个准确性估计,则通常假设为每个分类器计算的10个替代模型是等效的(=具有相同的精度),因此可以汇总测试结果*。对于10倍交叉验证,您然后假设测试样本大小等于测试样本总数。对于其他方法,我不太确定:您可能会多次测试同一案例。取决于数据/问题/应用程序,这并不等于测试新案例所需的信息那么多。

ķ

ķñp^=ķñσ2p^=σ2ķñ=p1个-pñ


喔好吧。这是最后一点,至少对我而言。谢谢。
约翰·穆勒

感谢您的回复。只是不清楚要遵循的程序。您说在一个数据集上进行瓶坯10倍交叉验证。测量保留样本的准确性,即计算2x2混淆矩阵。将十个2x2混淆矩阵相加。在汇总的2x2混淆矩阵上执行McNemar测试。

熵:1. 2x2列联表不是混淆矩阵。2.每次使用新样本,而不是在相同的测试数据上测试两个分类器:配对测试功能更强大(并且可以在此处使用)。查看更新后的答案。
cbeleites支持Monica 2012年

抱歉,列联表。我是否正确地说McNemar的检验也直接转化为多类问题。

@cbeleites非常感谢您的回复!!!我想您已经完全回答了我的问题。但是,我仍然不知道要遵循的确切程序。您介意最后一段的阐述吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.