我的主要问题是试图了解k倍交叉验证在具有训练/验证/测试集的情况下的适合度(如果完全适合这种情况)。
通常,人们会谈论将数据分为训练,验证和测试集-例如,每幅吴安德(Andrew Ng)课程的比例为60/20/20-验证集用于识别模型训练的最佳参数。
但是,如果希望在数据量相对较小的情况下使用k折交叉验证以希望获得更具代表性的准确性度量,那么在这种60/20/20拆分中,进行k折交叉验证的确切含义是场景?
例如,这是否意味着我们实际上将训练和测试集(数据的80%)组合在一起,并对它们进行k倍交叉验证,以获取我们的准确性指标(通过具有明确的“测试集”有效地丢弃)?如果是这样,我们在生产中使用a)和b)对验证集使用哪种训练模型并确定最佳训练参数?例如,a和b的一个可能答案可能是使用最佳折叠模型。