我有一家面包店的历史销售数据(每天3年以上)。现在,我想构建一个模型来预测未来的销售量(使用工作日,天气变量等功能)。
我应该如何分割数据集以拟合和评估模型?
- 是否需要按时间顺序进行训练/验证/测试拆分?
- 然后,我将对火车和验证集进行超参数调整吗?
- (嵌套)交叉验证是否是解决时序问题的错误策略?
编辑
这是我跟随@ ene100建议的URL之后遇到的一些链接:
- 罗布·海恩德曼(Rob Hyndman)在理论上和实践中(使用R代码)描述“滚动预测的起源”
- 滚动预测原点的其他术语是“前行优化”(此处或此处),“滚动范围”或“移动原点”
- 似乎这些技术在不久的将来不会集成到scikit-learn中,因为“这些技术的需求和符号性尚不清楚”(在此处说明)。
而这是时间序列交叉验证其他建议。