建立一个时间序列,其中包含每个日期的多个观测值


11

我正在尝试将时间序列应用于10年期间的季度采样数据(动物生物质),每季度3次。因此有40个日期,但总共有120个观测值。

我已经阅读过Shumway和Stoffer的时间序列分析及其应用中的SARIMA'a以及略过的Woodward等。等人的《应用时间序列分析》,我的理解是,每个模型都基于时间序列中每个点的一次观察。

问题:如何在模型的每个观测值中包括变化?我可以在均值的基础上建立一个序列,但我会放宽每次观察的差异,我认为这对于我了解正在发生的事情至关重要。


SARIMA可以扩展为多变量情况,这可能适合您。在这种情况下,关键字是VAR。这意味着您在每个时间段观察到一个数字向量,而不是一个数字。
mpiktas 2012年

Answers:


4

根据“每季度3次代表”的确切含义,面板数据(Wikipedia)模型可能有意义。这意味着您每季度要进行三项测量,而三个不同来源中的每一个都会随着时间的推移保持不变。您的数据如下所示:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

如果您正在查看的内容,那么可以使用多种模型来处理面板数据。这是一个不错的演示,其中涵盖了一些用于查看面板数据的基本R。尽管从计量经济学的角度来看,该文档的内容也有所深入。

但是,如果您的数据不太适合面板数据方法,则还有其他工具可用于“合并数据”。本文的定义(pdf)

数据汇总意味着使用涉及多个总体的多个数据源进行统计分析。它包含信息的平均,比较和通用解释。根据涉及的数据源和总体是相同/相似还是不同,也会出现不同的场景和问题。

如您所见,根据该定义,将要使用的技术将取决于您希望从数据中确切学习什么。

如果我建议您开始的地方,假设每个季度的三个抽奖在时间上是一致的,那么我要说的是,首先使用固定效果估计器(也称为内部估计器)和您的面板数据模型数据。

对于上面的示例,代码如下所示:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

给我们以下输出:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

在这里,我们可以清楚地看到时间在系数上对四分之一变量的影响,以及进入B组或C组(与A组相对)的影响。

希望这可以将您指向正确的方向。


3

我认为这很有趣。我的建议是对三个数据点取平均值,以得到一个平滑的时间序列。正如您指出的那样,如果您这样做是在忽略您对三个观察值的平均值,则会丢弃信息。但是对于每个时间点,您都可以将平均值的平方偏差求和。汇总所有时间段内的平方和,然后除以n-1,其中n是计算中使用的总点数。如果您的模型具有时间序列结构(例如趋势,季节成分,AR依赖关系结构),则此计算可能是模型中误差项方差的独立且无偏估计。


1
+1是一个易于执行且在理论上有效的有用想法。不过,有一个小小的修正:在时间段内观察到值。对方差的无偏估计将所有平方偏差的总和除以,而不是或(两者中的任何一个都是本质上不同并且是错误的)。一个人可能还应该绘制随时间变化的单个方差估计值(每个时间段一个),以评估将所有这些汇总在一起是否合法。3nn3n2nn13n1
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.