我正在考虑两种策略来对时间序列进行“数据增强”。
首先,有一点背景知识。预测时间序列下一步的预测变量通常取决于以下两个函数:时间序列的过去状态,以及预测变量的过去状态:
如果我们想调整/训练我们的系统以获得一个好的,那么我们将需要足够的数据。有时可用数据还不够,因此我们考虑进行数据扩充。
第一种方法
假设我们有时间序列,具有。并且还假设我们有满足以下条件:。
我们可以构造一个新的时间序列,其中是分布。
然后,除了仅在上使损失函数最小化之外,我们还在进行损失最小化。因此,如果优化过程需要步,我们必须将预测变量“初始化”次,并且我们将计算大约预测变量内部状态。
第二种方法
我们像以前一样计算,但是我们不使用更新预测器的内部状态,而是使用更新预测器的内部状态。在计算损失函数时,我们仅将两个序列一起使用,因此我们将计算大约预测变量内部状态。
当然,这里的计算工作量较少(尽管该算法有点难看),但现在并不重要。
怀疑
问题是:从统计角度来看,哪个是“最佳”选项?又为什么呢?
我的直觉告诉我,第一个更好,因为它有助于“规范化”与内部状态相关的权重,而第二个仅有助于规范与观察到的时间序列过去的权重。
额外:
- 还有其他想法可以对时间序列进行数据增强吗?
- 如何对训练集中的综合数据加权?