我正在尝试将时间序列应用于10年期间的季度采样数据(动物生物质),每季度3次。因此有40个日期,但总共有120个观测值。
我已经阅读过Shumway和Stoffer的时间序列分析及其应用中的SARIMA'a以及略过的Woodward等。等人的《应用时间序列分析》,我的理解是,每个模型都基于时间序列中每个点的一次观察。
问题:如何在模型的每个观测值中包括变化?我可以在均值的基础上建立一个序列,但我会放宽每次观察的差异,我认为这对于我了解正在发生的事情至关重要。
我正在尝试将时间序列应用于10年期间的季度采样数据(动物生物质),每季度3次。因此有40个日期,但总共有120个观测值。
我已经阅读过Shumway和Stoffer的时间序列分析及其应用中的SARIMA'a以及略过的Woodward等。等人的《应用时间序列分析》,我的理解是,每个模型都基于时间序列中每个点的一次观察。
问题:如何在模型的每个观测值中包括变化?我可以在均值的基础上建立一个序列,但我会放宽每次观察的差异,我认为这对于我了解正在发生的事情至关重要。
Answers:
根据“每季度3次代表”的确切含义,面板数据(Wikipedia)模型可能有意义。这意味着您每季度要进行三项测量,而三个不同来源中的每一个都会随着时间的推移保持不变。您的数据如下所示:
obs quarter value
A 1 2.2
A 2 2.3
A 3 2.4
B 1 1.8
B 2 1.7
B 3 1.6
C 1 3.3
C 2 3.4
C 3 3.5
如果您正在查看的内容,那么可以使用多种模型来处理面板数据。这是一个不错的演示,其中涵盖了一些用于查看面板数据的基本R。尽管从计量经济学的角度来看,该文档的内容也有所深入。
但是,如果您的数据不太适合面板数据方法,则还有其他工具可用于“合并数据”。本文的定义(pdf):
数据汇总意味着使用涉及多个总体的多个数据源进行统计分析。它包含信息的平均,比较和通用解释。根据涉及的数据源和总体是相同/相似还是不同,也会出现不同的场景和问题。
如您所见,根据该定义,将要使用的技术将取决于您希望从数据中确切学习什么。
如果我建议您开始的地方,假设每个季度的三个抽奖在时间上是一致的,那么我要说的是,首先使用固定效果估计器(也称为内部估计器)和您的面板数据模型数据。
对于上面的示例,代码如下所示:
> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5),
quarter=c(1,2,3,1,2,3,1,2,3),
obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)
给我们以下输出:
Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)
Residuals:
1 2 3 4 5 6 7
-1.667e-02 -8.940e-17 1.667e-02 8.333e-02 -1.000e-01 1.667e-02 -1.667e-02
8 9
1.162e-16 1.667e-02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.13333 0.06055 35.231 3.47e-07 ***
quarter 0.08333 0.02472 3.371 0.019868 *
factor(obs)B -0.50000 0.04944 -10.113 0.000162 ***
factor(obs)C 1.10000 0.04944 22.249 3.41e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928
F-statistic: 369.2 on 3 and 5 DF, p-value: 2.753e-06
在这里,我们可以清楚地看到时间在系数上对四分之一变量的影响,以及进入B组或C组(与A组相对)的影响。
希望这可以将您指向正确的方向。
我认为这很有趣。我的建议是对三个数据点取平均值,以得到一个平滑的时间序列。正如您指出的那样,如果您这样做是在忽略您对三个观察值的平均值,则会丢弃信息。但是对于每个时间点,您都可以将平均值的平方偏差求和。汇总所有时间段内的平方和,然后除以n-1,其中n是计算中使用的总点数。如果您的模型具有时间序列结构(例如趋势,季节成分,AR依赖关系结构),则此计算可能是模型中误差项方差的独立且无偏估计。