何时通过最小化AIC选择型号?


12

公认的是,至少在某些较高水平的统计学家中,具有AIC统计值在最小值某个阈值内的模型应被认为是使AIC统计量最小的模型是适当的。例如,在[1,第221页]中,我们发现

然后,具有较小GCV或AIC的模型将被认为是最好的。当然,不应仅仅盲目地将GCV或AIC最小化。而是,应将所有具有较小GCV或AIC值的模型视为潜在适当模型,并应根据其简单性和科学相关性对其进行评估。

同样,在[2,p.144]中,

有人建议(Duong,1984年),将AIC值设在最小值c之内的模型应认为具有竞争力(c = 2为典型值)。然后可以基于诸如残差的白度(第5.3节)和模型简单性等因素从竞争模型中进行选择。

参考文献:

  1. 鲁珀特,D .;Wand,MP和Carrol,RJ 半参数回归,剑桥大学出版社,2003年
  2. Brockwell,PJ和Davis,RA 时间序列和预测简介,John Wiley&Sons,1996年

因此,鉴于以上所述,以下两个模型中的哪一个应该是首选?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

更一般而言,什么时候通过盲目最小化AIC或相关统计信息来选择模型?


您尚未提供任何一种模型的AIC。
彼得·弗洛姆

我已经展示了如何使用R来获得它
冬眠

1
下列ARIMA模型中的+1问题。但除此之外:“简化预后模型:基于临床数据的模拟研究。” Ambler 2002是对此引用最多的参考。
查尔斯2013年

Answers:


4

从Cosma Shalizi 关于线性回归的真相的讲义中解说出来,您永远不要选择模型,仅仅因为它恰好使AIC之类的统计量最小化,因为

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.

1
正如一位著名的犹太人所说:“想象力胜于知识” :)
冬眠

而且,正如一位著名的非犹太人所说的:“通过看,您可以看到很多东西”(瑜伽木贝拉)。
彼得·弗洛姆

当然,我们看到的内容主要取决于我们要寻找的内容。-约翰·拉伯克
冬眠时间:

12

我会说在模型选择中使用AIC通常是适当的,但很少有权利将其用作模型选择的唯一基础。我们还必须使用实质性知识。

在您的特定情况下,您将比较具有3阶AR的模型与具有1阶AR的模型。除了AIC(或类似的东西)之外,我还要看一下自相关和局部自相关图。我还将考虑三阶模型的含义。是否有意义?它增加了实质性知识吗?(或者,如果您仅对预测感兴趣,那么它有助于预测吗?)

更一般地,有时候发现非常小的效果大小是很有趣的。


您是否只是说过,任何用于选择Arima模型的好的算法都不应仅基于AIC(或类似标准)标准?
2013年

是的,我确实是这么说的。
彼得·弗洛姆-恢复莫妮卡

在这一点上,我听到了再见auto.arima。我更喜欢遵循Bisgaard,S.和Kulahci,M.第6章中概述的方法。John Wiley&Sons,Inc.,例如,时间序列分析和预测,2011年,更准确地说是第6.5节“研究的脉冲响应功能”。模型的差异
冬眠

1
@Hibernating:的作者auto.arima海德门&Khandakar(2008年),说: - 。“大量的单变量时间序列的自动预测通常需要在商业这是常见的有一千多个产品线,这需要预测至少每月一次。即使只需要较少的预测,也可能没有人接受使用时间序列模型进行训练的适当训练。在这种情况下,自动预测算法是必不可少的工具。” 请注意这些情况
Scortchi-恢复莫妮卡

2
谢谢,但我以前读过。即使我们暂时不考虑“自动”部分的明显问题,“自动”部分也存在问题,尤其是当扩展到包括季节性模型时。季节性ARIMA模型受到PJ Harrison,C Chatfield和我碰巧喜欢学习的其他一些人物的强烈批评。我绝对反对在必要时进行自动预测:i)绝对必要,并且ii)基于可以找到声音的算法-否则,几年前,我遵循DR Cox在Stat Science对Leo Breiman的“两种文化”论文的评论中的建议。
2014年

8

PP


2
您的最后一句话很有趣。我记得我读过,如果最终目的是预测,那么即使将微不足道的预测变量添加到回归中也很合理。当时我并没有特别注意它,但是现在我将尝试查找该参考。
冬眠

3
我会说不要删除而不是添加。这不仅是预测,而且使用统计关联评估来指导变量选择会导致偏差以及无效的标准误差和置信度限制。
Frank Harrell
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.