我知道在交叉验证之外执行超参数调整会导致对外部有效性的偏高估计,因为您用来衡量性能的数据集与用于调整功能的数据集相同。
我想知道的是,这个问题有多严重。我可以理解,这对于选择功能真的很不利,因为这使您可以调整大量的参数。但是,如果您使用的是LASSO之类的东西(它只有一个参数,即正则化强度),或者是一个没有特征选择的随机森林(它可以具有一些参数,却没有添加/删除噪声特征那么引人注目)?
在这些情况下,您对培训误差的估计有多乐观?
我非常感谢您提供任何有关此方面的信息-案例研究,论文,文献数据等。谢谢!
编辑:为澄清起见,我不是在谈论在训练数据上评估模型性能(即根本不使用交叉验证)。“交叉验证之外的超参数调整”是指仅使用交叉验证来估计每个模型的性能,而不包括外部第二交叉验证循环来校正超参数调整过程中的过拟合(与在训练过程中过度安装)。请参见此处的答案。