如何与时间序列正确使用Pearson相关

我有2个时间序列（均平滑），我想对其进行互相关以了解它们之间的相关性。

我打算使用皮尔逊相关系数。这样合适吗

我的第二个问题是，我可以选择自己喜欢的两个时间序列。即，我可以选择我要我们的数据点数。这会影响输出的相关系数吗？我需要考虑这个吗？

出于说明目的

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

— 用户名
source

时间序列的本质是什么？他们是随机漫步吗？平稳吗经济系列？

— Aksakal，2015年

Pearson相关被用来看看序列之间的相关......但作为时间序列的相关性看在不同的滞后-的互相关函数。

互相关受系列内依赖性的影响，因此在许多情况下，应首先消除系列内依赖性。因此，要使用这种相关性而不是平滑序列，实际上更常见的是（因为它是有意义的）查看残差之间的依赖关系-在找到合适的变量模型后剩下的粗略部分。

您可能想从时间序列模型的一些基本资源开始，然后再尝试找出跨（大概）非平稳，平滑序列的Pearson相关性是否可以解释。

特别是，您可能想在这里研究这种现象。[在时间序列中，这有时被称为虚假相关，尽管有关虚假相关的Wikipedia文章对术语的使用持狭义观点，但似乎排除了该术语的使用。通过搜索伪回归，您可能会发现更多关于此处讨论的问题的信息。]

[编辑-维基百科的格局不断变化；以上段落。应该进行修订以反映现在的情况。]

例如看一些讨论

http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf（Yule 的开篇语录，于1925年发表，但于次年发表，对问题的总结很好）
Christos Agiakloglou和Apostolos Tsimpanos，固定式AR（1）进程的 虚假关联http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf （这表明您甚至可以得到平稳系列之间的问题；因此有变白的趋势）
Yule的经典参考文献，（1926）[1]。

您还可以找到的讨论在这里有用，以及讨论在这里

在时间序列之间以有意义的方式使用Pearson相关是困难的，有时甚至是令人惊讶的微妙。

我查找了虚假的相关性，但是我不在乎我的A系列是B系列的原因，反之亦然。我只想知道您是否可以通过查看B系列正在做什么而对A系列有所了解（反之亦然）。换句话说-它们是否具有相关性。

请注意我之前在Wikipedia文章中关于虚假相关一词的狭义使用的评论。

关于虚假相关性的一点是，序列可以看起来是相关的，但是相关性本身是没有意义的。考虑两个人扔两个不同的硬币，计算到目前为止的头数减去其系列数后的尾数。

$\text{HTHH...}$ $1, 0, 1, 2,...$

显然，两个系列之间没有任何联系。显然，任何一方都不能告诉您关于对方的第一件事！

但是，请看一下在成对的硬币之间得到的相关性：

在此处输入图片说明

如果我不告诉您这些是什么，而您自己拿了其中的任何一对，那么它们将是令人印象深刻的关联吗？

但是它们都是毫无意义的。完全是虚假的。三对彼此之间没有任何真正的正面或负面关系-只是累积的噪音。该寄生性不只是预测，整个概念的考虑一系列的关联而不考虑内系列依赖的是错误的。

所有你这里是内系列的依赖。没有任何实际的交叉系列关系。

一旦正确处理了使这些序列自动相关的问题-它们都已整合（伯努利随机游走），因此您需要区别它们-“表观”关联消失（这三个序列中最大的绝对交叉序列相关性）是0.048）。

告诉您的是事实-明显的关联仅仅是由系列内依赖引起的错觉。

您的问题是“如何在时间序列中正确使用Pearson相关性”-因此请理解：如果存在序列内依赖性，并且您不首先处理它，那么您将无法正确使用它。

此外，平滑不会减少串行依赖性的问题；相反，它使情况变得更糟！这是平滑后的相关性（默认的黄土平滑度-系列vs索引-在R中执行）：

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559

它们都离0更远了。它们都不过是无意义的噪声，尽管现在它是平滑的累积噪声。（通过平滑处理，我们减少了相关计算中所用序列的可变性，因此这可能就是相关性上升的原因。）

[1]：Yule，GU（1926）“为什么有时有时会出现时间序列之间的无意义关联？” 罗伊·Stat·Soc。，89，1，第1-63

— Glen_b
source

谢谢您的出色回答。我查找了虚假的相关性，但是我不在乎我的A系列是B系列的原因，反之亦然。我只想知道您是否可以通过查看B系列正在做什么而对A系列有所了解（反之亦然）。换句话说-它们是否具有相关性。

— user1551817 2015年

请查看我更新的答案。

— Glen_b 2015年

“ ..所以您需要区别它们。.”这到底是什么意思？也许与众不同？..

— Georgios Pligoropoulos

差异-请参阅此处的 Wikipedia 或《预测，原理和实践》一书的本部分。关于您的后续问题，您引用的段落的其余部分相当明确地说了这一点。（尽管这不是唯一的可能性，仅描述完成的一件合理的事情）

— Glen_b

我找到了该文件的另一个版本，并添加了标题和作者

— -Glen_b

$(S_t)_{1 \leq t \leq T}$ $X_t = S_t - S_{t-1}$ ）（在随机游走的情况下）是独立的，并且分布均匀。我建议您使用Spearman相关性或Kendall相关性，因为它们比Pearson系数更健壮。Pearson度量线性相关性，而Spearman和Kendall度量因变量的单调变换而不变。

另外，假设两个时间序列是高度相关的，比如说一起上升和下降，但是一个时间有时会发生剧烈变化，而另一个时间总是有轻微的变化，因此与Spearman和Kendall的时间序列不同，您的Pearson相关性会很低。更好地估计您的时间序列之间的依存关系）。

要对此进行全面处理并更好地理解依赖性，可以查看Copula理论，并将其应用于时间序列。

— 麦克风
source

时间序列数据通常取决于时间。但是，Pearson相关性适用于独立数据。这个问题类似于所谓的虚假回归。该系数可能非常显着，但这仅来自影响两个序列的数据的时间趋势。我建议对数据建模，然后尝试查看建模是否为两个系列生成相似的结果。但是，使用Pearson相关系数，很可能在解释依赖性结构时产生误导性的结果。

— random_guy
source