注意:大小写为n >> p
我正在阅读《统计学习的元素》,关于交叉验证的“正确”方法有很多提及(例如,第60页,第245页)。具体来说,我的问题是在进行模型搜索时,如何使用k倍CV或自举法评估最终模型(没有单独的测试集)?似乎在大多数情况下(没有嵌入式功能选择的ML算法)
- 功能选择步骤
- 元参数选择步骤(例如,SVM中的成本参数)。
我的问题:
- 我已经看到,可以在整个训练集上进行特征选择并放在一边的情况下,进行特征选择步骤。然后,使用k折CV,在每折中使用特征选择算法(获得每次可能选择的不同特征)并平均误差。然后,您将使用通过所有数据(预留的数据)选择的特征来训练最终模式,但是将交叉验证中的错误用作模型未来性能的估计。它是否正确?
- 当您使用交叉验证选择模型参数时,随后如何估算模型性能?您是使用第54页(pdf)所示的嵌套简历还是其他方法,还是上面#1的相同过程?
- 当您同时执行两个步骤(功能和参数设置)时.....然后您会做什么?复杂的嵌套循环?
- 如果您有单独的保留样本,那么担心会消失吗,您可以使用交叉验证来选择功能和参数(不必担心,因为您的性能估算将来自保留集)?