如果只有A和B这两种方法,我将计算出概率,即对于任意训练/测试分区,模型A的误差(根据一些合适的性能指标)低于模型B的误差。大于0.5,我会选择模型A,否则会选择模型B(参见Mann-Whitney U检验?),但是,我强烈怀疑最终会选择均值较低的模型,除非性能统计信息的分布非常不合理。 -对称。
另一方面,对于网格搜索,情况有所不同,因为您并未真正比较不同的方法,而是调整了同一模型的(超)参数以适合有限的数据样本(在这种情况下,通过交叉间接-验证)。我发现这种调整可能非常容易过度拟合,请参阅我的论文
加文·考利(Gavin C. Cawley),尼古拉·LC·塔尔博特(Nicola LC Talbot),“模型选择中的过拟合和性能评估中的后续选择偏差”,《机器学习研究杂志》,第11期,(7月):2079−2107,(www。)
我的一篇综述文章显示,对于内核计算机(例如SVM),最好使用相对粗糙的网格,以避免过度拟合模型选择标准。另一种方法(我还没有研究过,所以警告!)将选择误差最高的模型,该模型在统计学上不低于在网格搜索中找到的最佳模型(尽管这可能是一种相当悲观的方法,尤其是对于小型数据集)。
真正的解决方案虽然可能不是使用网格搜索来优化参数,而是通过贝叶斯方法或作为整体方法对参数值求平均。如果您不乐观,则过度拟合会更加困难!