K-fold交叉验证如何报告混淆矩阵?


18

假设我用K = 10折进行K折交叉验证。每折都会有一个混淆矩阵。报告结果时,我应该计算什么是平均混淆矩阵,还是仅对混淆矩阵求和?

Answers:


11

如果要测试模型的性能(即,不优化参数),通常将汇总混淆矩阵。像这样想,您已将数据分成10个不同的折或“测试”集。您在折痕的9/10上训练模型,然后测试第一个折痕并获得混淆矩阵。此混淆矩阵表示数据的1/10的分类。您使用下一个“测试”集再次重复分析,并获得另一个表示另外1/10数据的混淆矩阵。现在,将这个新的混淆矩阵添加到第一个矩阵中将代表您数据的20%。继续操作,直到完成所有折叠,对所有混淆矩阵求和,最后的混淆矩阵代表该模型对所有数据的性能。您可以对混淆矩阵求平均值,但实际上并不能提供累积矩阵中的任何其他信息,如果折叠的大小不尽相同,则可能会有偏差。

注意 -假设您的数据没有重复采样。我不能完全确定重复采样是否会有所不同。如果我学到一些东西或有人推荐一种方法,将会更新。


谢谢,cdeterman。关于模型选择(即优化调整参数)呢?
John M

@JohnM,那么您正在独立查看每个折叠,以指示完整模型的最佳参数。如果您想将两者结合起来,则可能需要查看嵌套的简历
cdeterman's
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.