比较泛化性能的分布


10

假设我有两种针对分类问题的学习方法和,并且通过诸如反复交叉验证或自举之类的方法来估计它们的泛化性能。从这个过程中,我得到了在这些重复中每种方法的得分和的分布(例如,每个模型的ROC AUC值的分布)。AB PAPB

从这些分布来看,可能是 但(即的预期泛化性能高于,但是此估计存在更多不确定性)。μAμBσAσBAB

我认为这称为回归中的偏差方差困境

我可以使用哪些数学方法来比较和并最终就使用哪种模型做出明智的决定?PAPB

注意:为简单起见,我在这里指的是两种方法和,但我对可用于比较〜1000个学习方法的分数分布(例如来自网格搜索)的方法感兴趣,并最终使关于使用哪种模型的最终决定。AB


我认为术语“ 偏差-方差折衷”在这里不适用,因为您没有将均方误差分解为偏差和方差,并且您不是在谈论估计量的方差,而是在谈论分数的方差。
卢卡斯

谢谢@卢卡斯。我正在尝试根据看不见的数据估算分类器和的得分。为此,我认为我可以将看得见的数据的平均值作为我的估计量(即和分别为和)。这些估计量的方差是否与得分和的方差不同?B E P AE P BA B P A P BABE(PA)E(PB)ABPAPB
2013年

2
@ user815423426我认为比较取决于您具有的损失函数。Diebold和Mariano(2002)有一篇很好的论文研究了您的问题。他们提出了一些统计测试,以比较“一般化”性能。我不知道如何在评论中设置链接。该论文是:Diebold,Francis X.和Robert S. Mariano。“比较预测精度”。商业和经济统计杂志20.1(2002):134-144。
semibruin

Answers:


2

如果只有A和B这两种方法,我将计算出概率,即对于任意训练/测试分区,模型A的误差(根据一些合适的性能指标)低于模型B的误差。大于0.5,我会选择模型A,否则会选择模型B(参见Mann-Whitney U检验?),但是,我强烈怀疑最终会选择均值较低的模型,除非性能统计信息的分布非常不合理。 -对称。

另一方面,对于网格搜索,情况有所不同,因为您并未真正比较不同的方法,而是调整了同一模型的(超)参数以适合有限的数据样本(在这种情况下,通过交叉间接-验证)。我发现这种调整可能非常容易过度拟合,请参阅我的论文

加文·考利(Gavin C. Cawley),尼古拉·LC·塔尔博特(Nicola LC Talbot),“模型选择中的过拟合和性能评估中的后续选择偏差”,《机器学习研究杂志》,第11期,(7月):2079−2107,(www。

我的一篇综述文章显示,对于内核计算机(例如SVM),最好使用相对粗糙的网格,以避免过度拟合模型选择标准。另一种方法(我还没有研究过,所以警告!)将选择误差最高的模型,该模型在统计学上不低于在网格搜索中找到的最佳模型(尽管这可能是一种相当悲观的方法,尤其是对于小型数据集)。

真正的解决方案虽然可能不是使用网格搜索来优化参数,而是通过贝叶斯方法或作为整体方法对参数值求平均。如果您不乐观,则过度拟合会更加困难!


感谢Dikran。当您说"average over the parameter values"我想了解如何通过整体方法(例如,将整体输出构建为分类器输出的平均值)时,但是我不确定在使用判别模型时如何使用贝叶斯方法进行此操作。我了解完全贝叶斯方法的理论(即避免点估计,并边缘化参数以构建最终后验),但是,假设我的参数的先验是统一的,那不等于构建平均合奏?
阿梅里奥·巴斯克斯·雷纳

1
在贝叶斯方法中,将通过模型的边际可能性(即贝叶斯证据)和任何超参数之上的模型对模型进行加权,因此这是用特定的加权模型加权平均的特殊情况。
迪克兰有袋博物馆,2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.