自相关如何处理?


13

为此,我有相当深的数学背景,但是我从未真正涉及过时间序列或统计建模。所以你不必对我很温柔:)

我正在阅读有关对商业建筑中的能源使用进行建模的论文,作者提出了这一主张:

[出现自相关的出现]是因为该模型是根据能源使用的时间序列数据开发的,该数据固有地是自相关的。时间序列数据的任何纯确定性模型都将具有自相关。如果在模型中包含[更多傅里叶系数],则会发现自相关会降低。但是,在大多数情况下,傅立叶模型的CV较低。因此,该模型对于实际用途而言可能是可以接受的,但实际上并不需要很高的精度。

0.)“时间序列数据的任何纯确定性模型将具有自相关”是什么意思?我可以模糊地理解这是什么意思,例如,如果您有0个自相关,那么您如何期望预测时间序列中的下一个点?可以肯定,这不是一个数学论点,这就是为什么它是0的原因:)

1.)我的印象是自相关基本上杀死了您的模型,但考虑到这一点,我不明白为什么会这样。那么,自相关为什么不好(或好)呢?

2.)我听到的关于自相关的解决方案是区分时间序列。如果没有尝试读取笔者的脑海,为什么一个没有,如果不可忽略的自相关存在做一个差异?

3.)不可忽略的自相关对模型有哪些限制?这是某个假设吗(即使用简单线性回归建模时的正态分布残差)?

无论如何,如果这些是基本问题,我们深表歉意,并在此先感谢您的帮助。

Answers:


10
  1. 我认为作者可能正在谈论模型的残差。我之所以这么说是因为他说要增加更多的傅立叶系数。如果我相信他拟合的是傅立叶模型,那么增加更多的系数会降低残差的自相关,但会增加CV的代价。

    如果您在可视化方面遇到困难,请考虑以下示例:假设您具有以下100点数据集,该数据集来自具有加高斯白噪声的两系数傅立叶模型:

    数据点

    下图显示了两个拟合:一个拟合为2个傅立叶系数,另一个拟合为200个傅立叶系数:

    适合

    如您所见,200傅立叶系数更适合DATAPOINTS,而2系数适合(“真实”模型)更适合MODEL。这意味着具有200个系数的模型的残差的自相关几乎肯定会比2系数模型的残差在所有滞后几乎都接近零,因为具有200个系数的模型几乎完全适合所有数据点(即,残差将几乎全为零)。但是,如果您从样本中减去10个数据点并使用相同的模型,您会怎么办?2系数模型将更好地预测您从样本中遗漏的数据点!因此,与200系数模型相反,它将产生较低的CV误差。这称为过度拟合。这种“魔术”背后的原因是,CV实际上试图衡量的是预测误差,即模型对数据集中不在数据集中的预测程度。

  2. 在这种情况下,残差的自相关是“不好的”,因为这意味着您没有很好地建模数据点之间的相关性。人们之所以没有改变该系列,主要是因为他们实际上想对基础过程进行建模。通常可以改变时间序列以消除周期性或趋势,但是如果实际上正是您要建模的周期性或趋势,则对它们进行差分似乎是万不得已的选择(或者是一种用于对残差建模的选项)更复杂的随机过程)。
  3. 这实际上取决于您正在处理的区域。确定性模型也可能是一个问题。但是,根据自相关的形式,可以很容易地看到由于诸如闪烁噪声,类ARMA噪声或如果它是残余的基础周期性源而引起自相关的情况(在这种情况下,您可能希望增加傅立叶系数的数量)。

感谢您的回复,如果您愿意,我想一次尝试消化这些。对于1.),是否有一种直观的方法来理解为什么包含更多的傅立叶系数会降低自相关并增加CV(我假设这是残差的CV)?
BenDundee

1
我加了一个例子。希望能帮助到你。是的,他指的是残差的简历。
内斯托尔

好的,我想我知道了。这与我要问的有关2的问题联系在一起。如何(通常)修补此模型以更好地理解相关性?您可以添加关于傅立叶系数相关矩阵的约束吗?
2013年

1
这也是我正在进行的艰巨任务。尤其是在使用周期性确定性模型时,很难知道要使用哪种噪声模型。最大的问题是您不知道傅里叶模型的系数先验数量,因此它们也是必须建模的随机变量。在数据点数量少的情况下,我将明确地使用可逆跳转MCMC来对此建模。我会尝试不同的噪声模型,并比较它们之间的AIC / BIC。但是,对于大型数据集,这是不可行的。
内斯托尔

3

当试图弄清为什么必须消除趋势时,我发现这篇论文《计量经济学虚假回归》很有帮助。本质上,如果两个变量趋向于趋势,那么它们将共同变化,这是麻烦的根源。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.