我一直在阅读有关k折验证的信息,我想确保自己了解其工作原理。
我知道对于保持方法,数据分为三组,测试集仅在最后用于评估模型的性能,而验证集用于调整超参数等。
在k折方法中,我们是否仍然保留最后的测试集,仅将剩余数据用于训练和超参数调整,即我们将剩余数据分成k折,然后在训练后使用平均精度每折(或我们选择用来调整超参数的任何性能指标)?还是根本不使用单独的测试集,而是将整个数据集简单地分成k折(如果是这种情况,我假设我们只是将k折的平均准确度视为最终准确度)?
3
这取决于您想做什么。如果您想要一个广义的性能估算,那么可以,该模型应该对从未见过的数据进行测试。但这并不意味着它必须是单个保留迭代,您可以使用重采样来实现相同的目标。
—
Firebug
...这意味着每当您使用“验证”结果进行超参数优化/模型调整时,都需要独立于该调整的另一阶段验证。对于这两个阶段,您都可以使用例如交叉验证或保留(或超出引导程序或...)。CV + CV称为嵌套CV,按住+按住可导致您提到的3组设置
—
cbeleites支持Monica