该插入符包是构建多机器学习模型辉煌[R库,并有模型构建和评估多种功能。对于参数调整和模型训练,插入符号包提供“ repeatedcv”作为方法之一。
作为一种好的做法,可以使用嵌套的K折交叉验证执行参数调整,其工作方式如下:
- 将训练集划分为“ K”子集
- 在每次迭代中,将“ K减1”子集用于模型训练,并保留1个子集(保持集)用于模型测试。
- 进一步将“ K减1”训练集划分为“ K”个子集,并迭代使用新的“ K减1”子集和“验证集”进行参数调整(网格搜索)。此步骤中确定的最佳参数用于测试步骤2中设置的保持。
另一方面,我假设重复的K折交叉验证可能会重复选择步骤1和2,因为我们选择查找模型方差的次数很多。
但是,仔细阅读插入符号手册中的算法,看起来“ repeatedcv”方法除了重复进行交叉验证外,还可能执行嵌套的K折交叉验证。
我的问题是:
- 我对插入符号'repeatedcv'方法的低估是正确的吗?
- 如果没有,您能否举一个使用插入的K折叠交叉验证的示例,并使用带有插入符号的'repeatedcv'方法?
编辑:
在本方法论文章中将解释和比较不同的交叉验证策略。
Krstajic D,Buturovic LJ,Leahy DE和Thomas S:选择和评估回归和分类模型时的交叉验证陷阱。化学信息杂志2014 6(1):10。doi:10.1186 / 1758-2946-6-10
我对使用插入符号包的“算法2:重复分层嵌套的交叉验证”和“算法3:针对变量选择和参数调整的重复网格搜索交叉验证”感兴趣。