如何与时间序列正确使用Pearson相关


47

我有2个时间序列(均平滑),我想对其进行互相关以了解它们之间的相关性。

我打算使用皮尔逊相关系数。这样合适吗

我的第二个问题是,我可以选择自己喜欢的两个时间序列。即,我可以选择我要我们的数据点数。这会影响输出的相关系数吗?我需要考虑这个吗?

出于说明目的

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

1
时间序列的本质是什么?他们是随机漫步吗?平稳吗 经济系列?
Aksakal,2015年

Answers:


72

Pearson相关用来看看序列之间的相关......但作为时间序列的相关性看在不同的滞后-的互相关函数

互相关受系列内依赖性的影响,因此在许多情况下,应首先消除系列内依赖性。因此,要使用这种相关性而不是平滑序列,实际上更常见的是(因为它是有意义的)查看残差之间的依赖关系-在找到合适的变量模型后剩下的粗略部分。

您可能想从时间序列模型的一些基本资源开始,然后再尝试找出跨(大概)非平稳,平滑序列的Pearson相关性是否可以解释。

特别是,您可能想在这里研究这种现象。[在时间序列中,这有时被称为虚假相关,尽管有关虚假相关的Wikipedia文章对术语的使用持狭义观点,但似乎排除了该术语的使用。通过搜索伪回归,您可能会发现更多关于此处讨论的问题的信息。]

[编辑-维基百科的格局不断变化;以上段落。应该进行修订以反映现在的情况。]

例如看一些讨论

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf(Yule 的开篇语录,于1925年发表,但于次年发表,对问题的总结很好)

  2. Christos Agiakloglou和Apostolos Tsimpanos,固定式AR(1)进程的 虚假关联http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (这表明您甚至可以得到平稳系列之间的问题;因此有变白的趋势)

  3. Yule的经典参考文献,(1926)[1]。

您还可以找到的讨论在这里有用,以及讨论在这里

-

在时间序列之间以有意义的方式使用Pearson相关是困难的,有时甚至是令人惊讶的微妙。


我查找了虚假的相关性,但是我不在乎我的A系列是B系列的原因,反之亦然。我只想知道您是否可以通过查看B系列正在做什么而对A系列有所了解(反之亦然)。换句话说-它们是否具有相关性。

请注意我之前在Wikipedia文章中关于虚假相关一词的狭义使用的评论。

关于虚假相关性的一点是,序列可以看起来是相关的,但是相关性本身是没有意义的。考虑两个人扔两个不同的硬币,计算到目前为止的头数减去其系列数后的尾数。

HTHH...1,0,1,2,...

显然,两个系列之间没有任何联系。显然,任何一方都不能告诉您关于对方的第一件事!

但是,请看一下在成对的硬币之间得到的相关性:

在此处输入图片说明

如果我不告诉您这些是什么,而您自己拿了其中的任何一对,那么它们将是令人印象深刻的关联吗?

但是它们都是毫无意义的。完全是虚假的。三对彼此之间没有任何真正的正面或负面关系-只是累积的噪音。该寄生性不只是预测,整个概念的考虑一系列的关联而不考虑内系列依赖的是错误的。

所有你这里是内系列的依赖。没有任何实际的交叉系列关系。

一旦正确处理了使这些序列自动相关的问题-它们都已整合(伯努利随机游走),因此您需要区别它们-“表观”关联消失(这三个序列中最大的绝对交叉序列相关性)是0.048)。

告诉您的是事实-明显的关联仅仅是由系列内依赖引起的错觉。

您的问题是“如何在时间序列中正确使用Pearson相关性”-因此请理解:如果存在序列内依赖性,并且您首先处理它,那么您将无法正确使用它。

此外,平滑不会减少串行依赖性的问题;相反,它使情况变得更糟!这是平滑后的相关性(默认的黄土平滑度-系列vs索引-在R中执行):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

它们都离0更远了。它们都不过是无意义的噪声,尽管现在它是平滑的累积噪声。(通过平滑处理,我​​们减少了相关计算中所用序列的可变性,因此这可能就是相关性上升的原因。)

[1]:Yule,GU(1926)“为什么有时有时会出现时间序列之间的无意义关联?” 罗伊·Stat·Soc。891,第1-63


谢谢您的出色回答。我查找了虚假的相关性,但是我不在乎我的A系列是B系列的原因,反之亦然。我只想知道您是否可以通过查看B系列正在做什么而对A系列有所了解(反之亦然)。换句话说-它们是否具有相关性。
user1551817 2015年

请查看我更新的答案。
Glen_b 2015年

2
“ ..所以您需要区别它们。.”这到底是什么意思?也许与众不同?..
Georgios Pligoropoulos

1
差异-请参阅此处的 Wikipedia 或《预测,原理和实践》一书的本部分。关于您的后续问题,您引用的段落的其余部分相当明确地说了这一点。(尽管这不是唯一的可能性,仅描述完成的一件合理的事情)
Glen_b

1
我找到了该文件的另一个版本,并添加了标题和作者
-Glen_b

6

(St)1tTXt=StSt1)(在随机游走的情况下)是独立的,并且分布均匀。我建议您使用Spearman相关性或Kendall相关性,因为它们比Pearson系数更健壮。Pearson度量线性相关性,而Spearman和Kendall度量因变量的单调变换而不变。

另外,假设两个时间序列是高度相关的,比如说一起上升和下降,但是一个时间有时会发生剧烈变化,而另一个时间总是有轻微的变化,因此与Spearman和Kendall的时间序列不同,您的Pearson相关性会很低。更好地估计您的时间序列之间的依存关系)。

要对此进行全面处理并更好地理解依赖性,可以查看Copula理论,并将其应用于时间序列


4

时间序列数据通常取决于时间。但是,Pearson相关性适用于独立数据。这个问题类似于所谓的虚假回归。该系数可能非常显着,但这仅来自影响两个序列的数据的时间趋势。我建议对数据建模,然后尝试查看建模是否为两个系列生成相似的结果。但是,使用Pearson相关系数,很可能在解释依赖性结构时产生误导性的结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.