如何按时间序列填写缺失的数据?


16

我有大量的污染数据,在过去的2年中,每10分钟记录一次,但是数据中存在很多空白(其中一些空白一次出现几个星期)。

数据似乎确实是季节性的,与夜间相比,白天的变化很大,在夜间,值没有太大的变化,并且数据点较低。

我考虑过将黄土模型分别适合于白天和晚上的子集(因为它们之间存在明显的差异),然后预测缺失数据的值并将这些点填入。

我想知道这是否是解决此问题的合适方法,是否还需要在预测点中添加局部变化。

Answers:


20

答案将取决于您的研究设计(例如,横断面时间序列?同类群组时间序列,系列同类队列时间序列?)。Honaker和King已开发出一种方法,该方法可用于横截面时间序列(可能对连续队列时间序列有用,具体取决于您的假设),包括用于估算此类数据的R软件包Amelia II。同时,Spratt&Co。已经描述了可以在某些同类队列时间序列设计中使用的另一种方法,但是在软件实现方面很少。

截面时间序列设计(又名面板研究设计)是其中一个群体(或多个)(被)重复采样(例如,每一年),使用相同的研究协议(例如,相同的变量,仪表等)。如果抽样策略具有代表性,则这些类型的数据将为研究中每个人群的这些变量的分布提供年度图片(每个参与者或受试者一个测量值)。

队列时间序列设计(又名重复群组研究设计,纵向研究设计,有时也称为面板研究设计)是在其中分析的单个的单元是采样一次,并随后在一段长的时间。可以以代表性的方式从一个或多个人群中采样个体。但是,随着时间的流逝,代表性人群的时间序列样本将逐渐成为目标人群(至少在人类人群中)的代表,因为人们出生或老化到目标人群中,或从其中死亡或老化。随着移民和移民。

串行队列时间序列设计(也称为重复多,和多个队列的,或面板研究设计)是其中一个群体(或多个)(被)重复采样(例如,每一年),使用相同的试验方案(例如,相同的变量,工具等),它可以在一段时间内(例如,在一年中)的两个时间点对总体中的单个分析单位进行测量,以建立变化率的度量。如果抽样策略具有代表性,那么这些类型的数据将对研究中每个人群的这些变量的变化率产生年度印象。

参考文献
Honaker,J.和King,G.(2010)。如何处理时间序列横截面数据中的缺失值美国政治科学杂志,54(2):561–581。

Spratt,M.,Carpenter,J.,Sterne,JAC,Carlin,JB,Heron,J.,Henderson,J.和Tilling,K.(2010)。纵向研究中的多重插补策略美国流行病学杂志 172(4):478-4876。


谢谢您的回复。我只是想知道您是否可以定义不同类型的时间序列(队列,横截面等),因为我对这种类型的研究还比较陌生,并且以前没有遇到过这些术语。
Jamesm131 '16

@ Jamesm131请参阅我的编辑答案。
亚历克西斯

7

您可以在R中使用imputeTS软件包。我相信您正在处理的数据是单变量时间序列。imputeTS软件包专门处理(单变量)时间序列插补。它提供了几种不同的插补算法实现。除插补算法外,该软件包还提供缺少数据统计信息的绘图和打印功能。好吧,我建议您研究缺失值的状态空间模型。此软件包应可帮助您进行分析。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.