我认为您在这里有很多不同的问题:
问题是,如果我使用数据集中的所有点进行训练,我将无法检查这个新的学习模型βfull是否适合!
事实是,您只能对一个事物使用(一个)验证步骤:用于参数优化,(x)或用于评估泛化性能。
因此,如果通过交叉验证(或任何其他类型的数据驱动的参数确定)进行参数优化,则需要独立于那些训练和优化样本的测试样本。Dikran称其为嵌套交叉验证,另一个名称是双交叉验证。或者,当然,是独立的测试仪。
因此,这是本文的问题:k折交叉验证后,使用完整的数据集进行训练是一个好主意吗?还是坚持使用在交叉验证拆分之一中学习的模型中的一种来获得更好的效果更好?
使用交叉验证模型之一通常比对完整模型进行训练更糟糕(至少如果您的学习曲线性能= f(nsamples)仍在增加。实际上,这是:如果不是,则您可能已经设置了交叉验证模型除了独立的测试仪。)
如果您发现交叉验证模型之间的差异很大(具有相同的参数),那么您的模型将不稳定。在那种情况下,与使用对整个数据训练的一个模型相比,对模型进行汇总可以提供帮助,并且实际上会更好。
更新:这种聚合是套袋背后的思想,它适用于无需替换的重新采样(交叉验证),而不是应用于替换的重新采样(引导程序/引导外验证)。
这是我们使用该技术的论文:
Beleites,C.&Salzer,R .:在小样本量情况下评估和改进化学计量学模型的稳定性,Anal Bioanal Chem,390,1261-1271(2008)。
DOI:10.1007 / s00216-007-1818-6
也许最重要的是,我该如何训练数据集中的所有点并仍然与过度拟合作斗争?
通过对“最佳”模型所允许的自由度非常保守,即通过考虑优化交叉验证结果的(随机)不确定性。如果df实际上适合于交叉验证模型,则对于较大的训练集,它们不太可能是很多。陷阱在于参数优化实际上是多次测试。您需要防止意外美观的参数集。