Answers:
.pickle
文件,并在有新数据可用时将其加载并进一步训练。请注意,为了使模型正确预测,the new training data should have a similar distribution as the past data
。The frequency will be dependent on dataset
而且没有具体的时间陈述。If you observe that your new incoming data is deviating vastly, then it is a good practise to retrain the model
。当有新的观测值可用时,有三种方法可以重新训练模型:
当今大多数模型将使用批处理/小批处理,并且批处理大小的选择取决于您的应用程序和模型。选择正确的批量大小等效于选择正确的频率来重新训练模型。如果您的新观察值与现有数据之间的差异较小,我建议您使用较大的批次(可能为256-512),相反,如果新的观察值与现有数据的差异较大,则应使用较小的批次(8-256)。归根结底,批处理大小有点像另一个您需要调整的超参数,它是特定于您的数据的
问题:您应该重新培训吗?
答案取决于您的模型尝试执行的操作以及在何种环境中应用该模型。
让我通过几个示例进行解释:
假设您的模型试图预测客户的行为,例如,在给客户量身定制的报价下,客户购买您产品的可能性如何。显然,市场随着时间而变化,客户的偏好也会发生变化,而竞争对手也会随之调整。您也应该进行调整,因此需要定期进行再培训。在这种情况下,我建议添加新数据,但也忽略不再相关的旧数据。如果市场瞬息万变,您甚至应该考虑仅根据新数据定期进行再培训。
另一方面,如果您的模型将某些成像(例如X射线或MRI)分类为医疗状况,并且模型运行良好,那么如果技术或医疗专业知识没有变化,则无需重新培训。添加更多数据不会有太大改善。