R中ARIMA残差的Ljung-Box统计信息:令人困惑的测试结果


15

我正在尝试预测一个时间序列,为此我使用了季节性ARIMA(0,0,0)(0,1,0)[12]模型(= fit2)。它与R关于auto.arima的建议不同(R计算得出的ARIMA(0,1,1)(0,1,0)[12]会更好,我将其命名为fit1)。但是,在我的时间序列的最后12个月,我的模型(fit2)在调整后似乎更合适(长期存在偏差,我添加了剩余均值,新的拟合似乎更贴近原始时间序列这是过去12个月的示例,MAPE最近12个月的两种情况:

fit1,fit2和原始数据

时间序列如下所示:

原始时间序列

到目前为止,一切都很好。我对这两个模型都进行了残差分析,这就是困惑。

acf(resid(fit1))看起来很棒,非常白噪声:

fit1的acf

但是,Ljung-Box测试不适用于例如20个滞后:

    Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)

我得到以下结果:

    X-squared = 26.8511, df = 19, p-value = 0.1082

据我了解,这是对残差不是独立的确认(p值太大,无法与独立假设一起保留)。

但是,对于滞后1来说,一切都很好:

    Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)

给我结果:

    X-squared = 0.3512, df = 0, p-value < 2.2e-16

我可能不理解该测试,或者与我在acf图上看到的有些矛盾。自相关性很低。

然后我检查了fit2。自相关函数如下所示:

acf fit2

尽管在最初的几个滞后处存在如此明显的自相关,但Ljung-Box测试在20个滞后处给我的结果比fit1好得多:

    Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)

结果是 :

    X-squared = 147.4062, df = 20, p-value < 2.2e-16

而仅仅在lag1处检查自相关,也可以得到零假设的证实!

    Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
    X-squared = 30.8958, df = 1, p-value = 2.723e-08 

我是否正确理解测试?为了确认残差独立性的零假设,p值最好小于0.05。哪种拟合更适合用于预测,拟合1或拟合2?

附加信息:fit1的残差显示正态分布,fit2的残差不显示正态分布。


2
您不了解p值,并且正在错误地解释它们。
Scortchi-恢复莫妮卡

是的,这可能是理解的问题。你能扩大吗?例如,如果p值大于0.5,那到底意味着什么?我已经读过p值的定义(考虑到原假设成立,获得统计信息的可能性至少与检验统计信息一样极端)。它如何应用于Ljung-Box测试?“至少一样极端”是否意味着“大于X平方”?我将不胜感激我的数据示例,因为重要性测试对我来说很难理解。
zima

6
X-squared残差的样本自相关变大时,Ljung-Box检验统计量()变大(请参见其定义),并且其p值是获得等于或大于零值下观察到的值的概率真正的创新是独立的假设。因此,小的p值是反对独立性的证据。
Scortchi-恢复莫妮卡

@Scortchi,我想我明白了。但这也使我在fit = 1的滞后= 1时的测试失败。怎么解释呢?我在滞后= 1时看不到任何自相关。该测试是否具有某种形式的极端性,且具有少量的滞后(非常小的样本)?
zima

3
Box-Ljung是对所有独立性的综合考验,最高可达您指定的标准。使用的自由度为否。滞后减去编号。AR和MA参数(fitdf),因此您正在针对自由度为零的卡方分布进行测试。
Scortchi-恢复莫妮卡

Answers:


34

您把测试解释错了。如果p值大于0.05,则残差是独立的,我们希望模型正确。如果使用下面的代码模拟白噪声时间序列并对其进行相同的测试,则p值将大于0.05。

m = c(ar, ma)
w = arima.sim(m, 120)
w = ts(w)
plot(w)
Box.test(w, type="Ljung-Box")

3
简短明了的解释。代码示例为+1。
Dawny33

1
您的解释也不正确。p值为0.05表示,如果您拒绝在直到案例1之前没有自相关的零假设,那么您就有5%的机会出错。
DJJ

8

许多统计检验被用来试图拒绝某些零假设。在这种特殊情况下,Ljung-Box测试试图拒绝某些值的独立性。这是什么意思?

  • 如果p值<0.05 1:假设有5%的机会出错,则可以拒绝原假设。因此,您可以假设您的值之间显示出相互依赖。

  • 如果p值> 0.05 1:您没有足够的统计证据来拒绝原假设。因此,您不能假设您的值是依赖的。这可能意味着您的值仍然是依赖的,或者可能意味着您的值是独立的。但是您并没有证明任何特定的可能性,您的测试实际上说的是,您不能断言值的依赖性,也不能断言值的独立性。

通常,这里重要的是要记住p值<0.05使您可以拒绝原假设,但p值> 0.05 不能使您确认原假设。

特别是,您无法使用Ljung-Box测试证明时间序列的值的独立性。您只能证明依赖性。


α=0.05


α=0.05

0

根据ACF图,显然,由于滞后k(k> 1)的相关系数急剧下降并接近0,因此拟合1更好。


0

如果使用ACF进行判断,则适合1。不用在Ljung测试中感到困惑,您仍然可以使用残差的相关图来确定fit1和fit2之间的最佳拟合


1
我不明白这个答案。
Michael R. Chernick '18

当我们访问Ljung框统计信息时,我们可能会对模型诊断检查(即模型充足性)感兴趣。...如果使用这样做会使您感到困惑,那么我上面已经提到了其他方法来检查模型充足性。您可以绘制数据残差的相关图Ie,ACF和PACF,然后检查序列的边界是否是白噪声……不必使用Ljung盒检验
Vincent
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.