在指数平滑模型中处理丢失的数据


14

在指数平滑模型家族的背景下,似乎没有一种标准的方法来处理丢失的数据。特别是,在预测包中称为ets的R实现似乎只占用了最长的子序列,而没有丢失数据,Hyndman等人的《带指数平滑的预测》一书也是如此。似乎根本没有谈论丢失数据。

如果我的用户明确要求我(并且丢失的数据不会出现得太近或出现的时间间隔恰好相隔一个季节),我想做更多的事情。特别要注意的是以下几点。在模拟过程中,每当我会遇到一个丢失值,我将替代当前点预报ýÿ ,使得ε = 0。例如,这将使数据点在参数优化过程中不被考虑。ÿŤÿŤÿŤεŤ=0

一旦我对参数有合理的拟合度,就可以估计误差的标准偏差(假设是平均值为),并验证使用从该分布生成的ϵ t值不会将可能性大幅度降低。我也将这些值用于预测(使用模拟)。0ϵŤ

此方法是否存在已知的陷阱?


您是否考虑过将高斯过程与指数协方差核一起使用?似乎是一种处理缺失数据并得出置信区间的自然方法。R具有您可以查看的GPFit软件包。
LE罗杰森

Answers:


2

您的方法很有道理。与我联系了几年的一个商业软件确实做到了这一点。

您的大纲适用于单指数平滑(SES),但是您当然可以对趋势或季节成分应用相同的处理。对于季节性的,您需要返回完整的季节性周期,就像进行更新一样。

当然,另一种选择是简单地插入缺失值。这是较新版本的中的一个选项ets(..., na.action="na.interp")

据我对状态空间模型的了解很少,将丢失的数据简单地视为未观察到的数据应该不会太困难。我不确定为什么在forecast包中没有实现。快速搜索Rob Hyndman的博客实际上并没有产生任何有用的信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.