关联音量时间序列


12

考虑下图:

推特和交易量

红线(左轴)描述了某只股票的交易量。蓝线(右轴)描述了该股票的推特消息量。例如,在5月9日(05-09),进行了约110万笔交易和4.000条推文。

我想计算出时间序列之间是否存在相关性,无论是在同一天还是滞后-例如:推特交易量与一天后的交易量相关。我正在阅读许多进行过此类分析的文章,例如将财务时间序列与微博客活动相关联,但它们并未描述如何实际进行这种分析。文章中说明了以下内容:

在此处输入图片说明

但是,我很少有统计分析方面的经验,并且不知道如何在已有的系列文章中执行此操作。我使用SPSS(也称为PASW),我的问题是:从上面的图像基于数据文件的角度出发,要进行这样的分析需要采取哪些步骤?这样的测试是否是默认功能(称为“默认功能”)和/或我还可以执行它吗?

任何帮助将不胜感激 :-)


1
您可以计算出它们……您无法将它们与临界值进行比较,除非两个序列是双变量正态
IrishStat 2012年

我在此处粘贴了原始数据:pastebin.com/tZajRae9有没有办法判断该序列是否为双变量正态?非常感谢您的评论。
Pr0no 2012年

在检测每个系列的离群值/水平偏移后,所得调整后的系列显示出AR(1)模型。在不仅包含离群值/水平偏移调整和根据经验确定的AR(1)之后,两个噪声序列都没有自相关(在结构内)。这两个替代序列的互相关表明没有实质的互相关(在结构中),因此,tweet的数量似乎没有帮助预测体积。
IrishStat 2012年

Answers:


6

二次检查为二元正态性检查三件事:

  1. 检查第一批观测值是否在一定程度上是正常的,
  2. 检查第二系列的观测值是否在一定程度上是正常的,
  3. 彼此回归,并检查残差是否正常。

要在每个步骤中检查正态性,请使用正态qq图,也可以使用任何正态性假设检验。

或者,您也可以检查两个序列的每个可能的线性组合(实系数)是否都略微正常。但是,那可能很困难。

编辑:(6年后)我将保留以上内容以供后代使用,但请注意,我在这里对类似问题有更新的答案。


我已经执行了步骤1和步骤2,并提出了以下框线图:i.imgur.com/SDOTE.png除了3到5个离群值观察值外,它们看上去都是正常的。但是,信号。Shapiro-Wilk检验的值是0.000,这表明与正常值有显着偏差。除去异常值后,Shapiro Wilk Sig。鸣叫是0.201,交易是0.004。这是否表明不可能建立关联?此外,这是一个时间序列-删除异常值意味着在研究的时间范围内删除日期。这是公认的做法吗?
Pr0no 2012年

我还为第3步绘制了一个pp图。或者至少,在我的解释中,这是我需要的(带有正态概率图的线性回归):i.imgur.com/EZ3Ic.png有何评论?
Pr0no 2012年

边际分布看起来不正常。维基百科页面链接上有一小节关于推理。除去异常值通常不是一个好主意。也许引导一个置信区间。
泰勒

1
问题是相关性-答案是正态性。答案被多次投票并被接受。我在这里想念的是什么?..
理查德·哈迪

二元正态分布是使用Pearson相关性来激励/证明的最简单模型。
泰勒

11

时间序列之间的相关系数是无用的。请参阅“ 相关系数-测试重要性的临界值”。U. Yule在1926年首次指出这一点。Yule,GU,1926,“为什么有时会在时间序列之间获得无意义的关联?抽样研究和时间序列的性质”,《皇家统计学会杂志》 89,1 –64。您可能想在Google上搜索“为什么我们会胡扯关联”。

这样做的原因是测试相关联的关节正态性。联合正常性要求每个系列都正常。正常需要独立。要检查时间序列之间的关系,请在William Hill WS Wei,David P. Reilly撰写的任何良好的时间序列书(例如《时间序列分析:单变量和多变量方法》)中复习传递函数识别。

挑战答案

在回答您的挑战方面。众所周知(Yule,GU,1926年),将两个时间序列相关可能存在缺陷,特别是如果其中一个序列受脉冲/水平移动/季节性脉冲和/或本地时间趋势影响的话。在这种情况下,我将分别采用每个序列,并确定ARIMA结构以及可能适用并产生错误过程的任何脉冲/水平移动/季节性脉冲和/或本地时间趋势。

通过两个干净的错误过程,两个原始序列中的每个序列,我将计算互相关,然后可以使用互相关来测量每个序列中自相关结构之上和之外的关联度。该解决方案被适当地称为双重预增白方法。

看到:


感谢您的回复。但是,您是否然后说按照定义,我所指的论文没有价值?其次,这是否意味着按照定义,两个序列在​​存在相关意义的情况下永远不会相关?
Pr0no 2012年

3
可以计算相关性,因为这是简单的算法。不能(轻松)计算出相关性在统计上显着的概率。回想一下您第一次被介绍到相关系数。在N个独立样本的情况下,针对N个独立样本中的每个样本都计算了两个特征/值,并且关节密度为双变量正态。
IrishStat

1
为什么需要联合正态性,而不仅仅是相同的(对称的?)分布?也就是说,联合统一也行不通吗?
naught101 '04

1
@ NAUGHT101。在联合正态性的假设下可获得相关系数的临界值,否则未定义。
IrishStat

@IrishStat感谢您对答案进行编辑。感激不尽。对于正态性测试,请参阅i.imgur.com/SDOTE.png以获得单独变量的qq图。在除去异常值之后,据我所知,可以用一个pp图测量联合规范,它看起来像这样。i.imgur.com/EZ3Ic.png有何评论?
Pr0no 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.