基于估计的分类准确性,我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器,我从基本集中随机选择一个训练和测试样本,训练模型并测试模型。每个分类器我都会做十次。因此,每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用?
基于估计的分类准确性,我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器,我从基本集中随机选择一个训练和测试样本,训练模型并测试模型。每个分类器我都会做十次。因此,每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用?
Answers:
一些t检验的审查和批评方法之一是在给定的基础上校准测试两个学习算法之间的选择,为监督分类学习算法比较近似的统计检验,并在比较量词:需要避免的陷阱和推荐方法
我手边没有Fleiss书,所以这就是IIRC。
目前在评论中回答@JohnMoeller的问题:原始问题恕我直言,无法原谅。
因此,假设我有30个样本,并在每个样本上测试c1和c2,并记录每个样本的准确性。
这样做,您最终得到一个2 x 2列联表,其中分类器1正确/错误,而分类器2正确/错误。这是麦克尼玛(McNemar)测试的起点。因此,这是用于配对比较的,它比比较“独立”的比例(如果它们来自同一有限样本中的随机抽取不是完全独立的)更强大。
我现在无法查询McNemar的“小字样”,但30个样本并不多。因此,您甚至可能必须从McNemar的测试转换为Fisher的精确测试(或其他方法),以计算二项式概率。
比例的平均值:
不论是用10个测试用例测试一个同一个分类器10x,还是用所有这100个用例测试一次,这没关系(2 x 2表只计算所有测试用例)。
如果通过随机保留或10倍交叉验证或10倍自举获得了原始问题中每个分类器的10个准确性估计,则通常假设为每个分类器计算的10个替代模型是等效的(=具有相同的精度),因此可以汇总测试结果*。对于10倍交叉验证,您然后假设测试样本大小等于测试样本总数。对于其他方法,我不太确定:您可能会多次测试同一案例。取决于数据/问题/应用程序,这并不等于测试新案例所需的信息那么多。