通过k倍交叉验证,您是否可以对所有


13

当执行k倍交叉验证时,我了解到,您可以通过将除一个以外的所有折点都指向该折点并进行预测来获得准确性指标,然后重复此过程次。然后,您可以在所有实例上运行准确度指标(准确度,召回率,正确分类的百分比),这应该与您每次计算它们然后对结果取平均值一样(如果我错了,请纠正我)。k

您想要的最终结果是最终模型。

您是否对获得的模型进行平均以进行预测,最后得出具有通过上述方法获得的准确性指标的模型?k

Answers:


15

k

交叉验证实验的结果可以告诉您,支持向量机在数据上的性能优于朴素贝叶斯,或者对于该特定数据集,分类器的超级参数应设置为c。掌握了这些知识之后,您便可以使用所有可用数据来训练“生产”分类器,并将其应用于您的问题。

在许多情况下,甚至还不清楚如何平均几个模型。例如,三个决策树或最近邻居分类器的平均值是多少?

重要的是要记住,交叉验证的结果是估计值,而不是保证值,如果生产分类器使用相似质量(和数量)的数据进行训练,则这些估计更有效。在开发使用这些估计来进行推断的方法方面,已经进行了大量的工作。也就是说,就统计数据而言,在这些数据上,方法A通常优于方法B。


2
使用k倍交叉验证估计进行推断有什么好的参考?如果您能分享很多,我很乐意继续阅读。
tentaclenorm

1
一个不错的起点可能是iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs / ...,但是有很多不同的方法。
Matt Krause 2014年

1
需要澄清的另一件事:当我们使用所有数据训练“生产”分类器时,我们如何理解何时停止?
安东
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.