Answers:
与通常使用交叉验证和引导外方法的一个重要区别是,大多数人仅应用交叉验证一次(即,每种情况仅测试一次),而大量进行引导外验证重复/迭代次数。在这种情况下,由于模型的不稳定性,交叉验证的方差更大。但是,可以通过使用例如重复/重复的倍交叉验证来避免这种情况。如果这样做,至少对于我一直在使用的光谱数据集而言,两种重采样方案的总误差在实践中似乎是相同的。
不鼓励进行留一法交叉验证,因为不可能减少模型的不稳定性类型方差,并且存在一些分类器和问题,表现出巨大的悲观偏见。
只要混入的重采样误差不会过分乐观,.632引导程序就可以完成合理的工作。(例如,对于我使用的数据而言,具有很多变量的非常宽的矩阵,由于模型易于严重过拟合,因此效果不佳)。这也意味着我将避免使用.632引导程序来比较复杂度不同的模型。使用.632+引导程序,我没有经验:如果发生过度拟合并被正确检测到,它将等于原始的引导程序外估计,因此我坚持使用普通oob或迭代/重复交叉验证数据。
文献:
Dougherty和Braga-Neto有许多有关该主题的出版物,例如
Beleites,C。等。:使用稀疏数据集来估计分类错误,方差降低Chemom Intell Lab Syst,2005,79,91-100。
我们比较了一次交叉验证或重复/重复进行的交叉验证,并将其与自举和.632进行了比较。对于具有多重共线性的特别宽的数据,也可以进行自举。
Kim,J.-H .:估计分类错误率:重复交叉验证,重复保留和自举,计算统计与数据分析,2009,53,3735-374
还发现重复/迭代倍交叉验证和引导外的性能类似(与仅执行一次交叉验证相反)。
accuray(@FrankHarrell会告诉您这是一个错误的选择,因为它不是适当的评分规则)容易受到高方差的影响,因为即使分类器预测为例如60,它也会将每种情况视为完全正确或完全不正确测试案例属于相关类别的后验概率百分比。合适的评分规则是例如Brier评分,它与回归中的均方误差密切相关。
均方误差类比可用于诸如准确性,敏感性,特异性,预测值之类的比例:Beleites,C. 等。:使用部分类别成员资格对软分类模型进行验证:敏感性和Co.的扩展概念在星形细胞瘤组织分级中的应用,Chemom Intell Lab Syst,2013,122,12-22;DOI:10.1016 / j.chemolab.2012.12.003(摘要页也提供指向预印本的链接)
我的最终目标是能够自信地说一种机器学习方法优于特定的数据集。
使用配对测试进行评估。为了比较比例,请看McNemar的检验。
答案将受到度量标准选择的影响。由于回归类型的误差度量不具有使用阈值削减决策的“强化”步骤,因此它们的方差通常小于分类对应项。像准确性这样的指标基本上是成比例的,将需要大量的测试用例才能确定一个分类器相对于另一个分类器的优越性。
Fleiss:“比率和比例的统计方法”提供了示例(和表格),用于不成对地比较比例。为了让您对“大样本量”的含义有个印象,请看一下我对另一个问题的回答中的图像。像McNemar这样的配对测试需要较少的测试用例,但IIRC仍处于最佳情况下,是未配对测试所需样本量的一半(?)。
为了表征分类器的性能(强化),通常需要至少两个值的工作曲线,例如ROC(敏感性与特异性)等。
我很少使用整体精度或AUC,因为我的应用程序通常会有一些限制,例如,灵敏度比特异性更重要,或者应满足这些度量的某些限制。如果您选择“单个数字”总和特征,请确保您要查看的模型的工作点实际上在合理的范围内。
有关准确性和其他性能度量标准,这些度量标准根据参考标签总结了多个类的性能,请确保考虑到应用程序中将遇到的类的相对频率-不一定与您在应用程序中所遇到的相同培训或测试数据。
Provost,F。等。:1998年第十五届国际机器学习会议论文集中反对归纳算法比较的精度估计的案例
编辑:比较多个分类器
我已经考虑了一段时间,但是还没有找到解决方案(我也没有遇到任何有解决方案的人)。
到目前为止,这是我得到的:
问题是您很快就会遇到大量的多重比较情况。
但是,您可能会说,对于我手头的应用程序,多重比较并没有真正使事情变得更糟,因为我很少有足够的测试用例来进行单个比较...
我认为模型超参数的调整是一般模型比较问题的专门版本,一开始可能较容易解决。但是,有传言说,模型的质量在很大程度上取决于构建模型的人的专业知识,甚至可能比模型类型的选择更重要。
目前,我决定“优化是万恶之源”,而是采取一种截然不同的方法:
我会根据有关当前问题的专业知识来尽可能地做出决定。实际上,这可以使范围缩小很多,因此我经常可以避免模型比较。当我必须比较模型时,我会尽量保持开放和清晰,提醒人们性能估计的不确定性,尤其是多个模型比较仍然是AFAIK尚未解决的问题。
测试的含义只是指这样的事实,因为所有模型都使用完全相同的测试用例进行测试,因此您可以一方面将用例分为“简单”和“困难”用例,为此所有模型都得出正确的(或错误)的预测。它们无助于区分模型。另一方面,有些“有趣”的案例可以通过某些模型正确预测,而不能通过其他模型正确预测。仅需要考虑这些“有趣”的案例来判断优越性,“简单”或“困难”的案例都不能提供帮助。(这就是我对麦克尼玛测试背后的想法的理解)。
仅由于原始研究使用了不连续的不正确评分规则(正确分类的比例),才需要对引导程序进行修改(.632,.632 +)。对于其他准确性得分,普通的乐观引导程序通常可以正常工作。有关更多信息,请参见http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T
不正确的评分规则会误导您选择功能及其权重。换句话说,所有可能出错的事物都会出错。
摘自Khun的“应用预测建模”。约翰逊。第78章
“没有一种重采样方法总是比另一种方法更好;应该在考虑多个因素的情况下进行选择。如果样本量较小,出于多种原因,我们建议使用重复的10倍交叉验证;偏倚和方差性质良好,并且给出了如果目标是在模型之间进行选择(而不是获得最佳性能指标),则可以采用一种自举程序,因为自举程序的差异非常小,因此非常有用。对于大样本量,重采样方法之间的差异变得不太明显,并且计算效率会提高。” p。78
另外,考虑到两个相似结果的选择,通常更可解释的模型是优选的。作为示例(来自同一文本),使用10倍CV,SVM分类器的准确度估计值为75%,重采样结果介于66%和82%之间。在Logistic回归分类器上使用了相同的参数,准确性为74.9%,重采样范围相同。最好选择更简单的逻辑回归模型,因为它更易于解释结果。