时间序列中的AIC与交叉验证：小样本案例

我对时间序列设置中的模型选择感兴趣。具体来说，假设我要从具有不同滞后顺序的ARMA模型池中选择一个ARMA模型。最终目的是预测。

型号选择可以通过

交叉验证，
使用信息标准（AIC，BIC），

在其他方法中。

Rob J. Hyndman提供了一种对时间序列进行交叉验证的方法。对于相对较小的样本，交叉验证中使用的样本大小可能与原始样本大小在质量上有所不同。例如，如果原始样本大小为200个观测值，则可以考虑通过获取前101个观测值并将窗口扩展到102、103，...，200个观测值来获得100个交叉验证结果，从而开始交叉验证。显然，对于200个观测值而言，合理地简约的模型对于100个观测值而言可能太大，因此其验证误差将很大。因此，交叉验证可能会系统地偏爱过于简约的模型。由于样本大小不匹配，这是不希望的效果。

交叉验证的替代方法是使用信息标准进行模型选择。由于我关心预测，因此我将使用AIC。尽管AIC渐近等效于最小化时间序列模型的样本外一步预测MSE（根据Rob J.Hyndman的帖子），但我怀疑这与样本有关在这里是否有意义我关心的尺寸不是很大...

问题：对于中/小样本，我应该在时间序列交叉验证中选择AIC吗？

一些相关的问题可以在这里，这里和这里找到。

— 理查德·哈迪
source

我也可以想象BIC也等同于“更长的”预测（提前m步），因为它与k交叉验证无关。但是对于200个观察，可能并没有太大的区别（5p代替2p）。

— 概率

@CagdasOzgenc，我问Rob J. Hyndman，关于交叉验证是否有可能在OP中给出的系统性地偏爱过于简约的模型并得到确认，因此这非常令人鼓舞。我的意思是，我在聊天中尝试解释的想法似乎是正确的。

— 理查德·哈迪

有理论上的理由支持AIC或BIC，因为如果从似然和信息理论入手，那么基于这些的度量具有众所周知的统计特性。但是通常是处理的数据集不是很大。

— 分析师

我花了很多时间试图了解AIC。语句的相等性基于构成CLT版本的众多近似值。我个人认为这使AIC对于小样本非常有问题。

— meh

@IsabellaGhement，为什么要这样？没有理由将自己局限于交叉验证的这种特殊用途。当然，这并不是说交叉验证不能用于模型评估。

— 理查德·哈迪

Answers:

撇开理论上的考虑，赤池信息准则只是受到自由度的惩罚。接下来，AIC考虑了数据的不确定性（-2LL），并假设更多的参数会导致更高的过拟合风险（2k）。交叉验证仅查看模型的测试集性能，无需进一步假设。

如果您最在乎进行预测，并且可以假设测试集与实际数据相当相似，则应该进行交叉验证。可能的问题是，当您的数据很小时，然后将其拆分，最终会得到小的培训和测试集。较少的训练数据是不好的，而较少的测试数据会使交叉验证的结果更加不确定（请参见Varoquaux，2018年）。如果您的测试样本不足，您可能会被迫使用AIC，但要记住它可以测量的内容以及可以做出的假设。

另一方面，正如评论中已经提到的，AIC为您提供无症状保证，而小样本情况并非如此。小样本也可能会误导数据的不确定性。

— 蒂姆
source

谢谢您的回答！对于由于数据的时间序列性质而导致的交叉验证中较小的样本量的不良影响，您是否有任何具体意见？

— 理查德·哈迪

嗯-如果您的最终目标是进行预测，那么您为什么打算进行模型选择？据我所知，在“传统”统计文献和机器学习文献中都很好地证明，模型平均在预测方面是优越的。简而言之，模型平均意味着您估计所有可能的模型，让它们全部预测并平均以其相对模型证据加权的预测。

开始的有用参考是 https://journals.sagepub.com/doi/10.1177/0049124104268644

他们对此进行了非常简单的解释，并参考了相关文献。

希望这可以帮助。

— StoryTeller0815
source

-1

我的想法是，两者都看。直接使用AIC。AIC越小，模型越好。但是不能依靠AIC来说这样的模型是最好的。因此，如果您拥有ARIMA模型库，则将每个模型收集起来并检查现有值的预测，然后查看哪个模型可以预测与现有时间序列数据最接近的模型。其次，还要检查AIC并考虑两者，这是一个不错的选择。没有硬性规定。只需选择预测最佳的模型即可。

— 多维尼·贾亚辛格（Dovini Jayasinghe）
source

谢谢您的回答！我正在寻找一种在不同的模型选择方法之间进行选择的原则方法。尽管您没有硬性规定，但我们需要在假设的理想条件下制定明确的准则，以协助我们在混乱的现实世界中生存。因此，尽管我总体上同意您的观点，但我认为您的回答没有特别的帮助。

— 理查德·哈迪