假设我在训练集上训练了多个模型,请使用交叉验证集选择最佳模型,并在测试集上测量性能。所以现在我有了一个最终的最佳模型。我应该在所有可用数据上对其进行再培训还是仅在培训集中接受培训的船舶解决方案?如果是后者,那为什么呢?
更新:正如@ P.Windridge所指出的,交付经过重新训练的模型基本上意味着未经验证就交付了模型。但是我们可以报告测试集的性能,然后正确地在完整数据上对模型进行训练,以期期望性能更好-因为我们使用了最好的模型加上更多的数据。这种方法会引起什么问题?
您是否在外部监管的环境中工作?(即,可能您必须交付经过验证的模型,并且您的问题仅是假设的,但无论如何都值得讨论:))。编辑:好的,我看到你编辑了你的帖子。
—
P.Windridge,2015年
您是否认为您的测试数据可以代表总体/涵盖开发样本中未涵盖的一部分总体?您的原始开发样本是否在某种程度上不足?
—
P.Windridge,2015年
@ P.Windridge好,我的问题只是假设的。关于您的第二条评论,我相信没有人会期望工程师在给他无代表性的数据的同时训练好模型。
—
Yurii 2015年
我无法想象在许多情况下您会未经验证就运送模型。我宁愿减小测试样本的大小(但仍然要足够大才能进行验证!)。可能更有趣的讨论是基于/ all /数据的/ select /模型的利弊,然后使用子样本对其进行训练,然后对其余样本进行验证。
—
P.Windridge 2015年
类似的问题= stats.stackexchange.com/ questions/ 174026/…,尽管我认为它可以使用更多讨论
—
P.Windridge