Answers:
简单的说法是,任何两个随时间变化趋向于一个方向的变量似乎都相互关联,无论它们之间是否存在任何联系。请考虑以下变量:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
y 1 y 2 x x y 2 x y 1和,只是时间的函数。 是时间和。关键是要从代码中识别出和之间确实存在关系,而和之间没有关系。现在看下图,所有三行看起来都非常相似,不是吗?
实际上,和之间关系的值为98%,和之间的为99%。但是我们知道和之间没有真正的关系,而和之间存在真正的关系。 x y 1 R 2 x y 2 x y 1 x y 2,那么我们如何区分真实与单纯的外观?那就是差异的来源。对于任何两个变量,由于它们都倾向于随着时间的推移而上升,因此,这并不是很有用,但鉴于一个变量上升了某个特定数量,这是否可以告诉我们另一个变量上升了多少?差异允许我们回答这个问题。请注意以下两个图,这是我在对所有三个变量求和后得出的散点图。
在这里,我们清楚地看到,知道上升了多少 ,就可以知道上升了多少(),但是和并非如此()。因此,您的问题的答案是,您应该忽略原始变量之间的相关性,而要查看差异变量。鉴于您的为.004,我会说没有实际关系。 y 2 R 2 = .43 x y 1 R 2 = .07 R 2
其他一些要点:在图中,我要指出这些是同时发生的变化。这没什么错,这是从我提出问题的方式开始的,但是通常人们会对效果有些滞后。(也就是说,在某一时间点更改一件事物会导致以后又更改另一件事物。)其次,您提到记录系列中的一个。记录日志只是将您的数据从级别切换到费率。因此,当您有所不同时,您正在查看的是费率的变化,而不是水平的变化。这很普遍,但是我没有在演示中包括该元素。它与我讨论的问题正交。最后,我想承认时间序列数据通常比我的演示更复杂。
@gung提供了一个很好的答案,但是我想对您的建议提供一些警告。
差异主要用于解决单位根问题,例如,当过程为具有相关系数1的AR(1)时,当误差项为白噪声时,差异可以有效地消除线性时间趋势(在尤其是,它没有序列相关性,如@gung所示。但是,如果误差项具有绝对相关值小于1的序列相关性,则使用差分来消除线性时间趋势会产生结构非常复杂的误差。在这种情况下,很难获得准确的标准误差并做出有效的推论。
因此,最好先测试单位根,如果检测到根,则最好通过差分来解决。接下来,检查线性时间趋势。通过消除趋势来解决此问题。如果不做后者,您会遇到@gung很好地说明的被忽略的变量类型问题。
当目标是形成/识别两个或多个序列之间的关系时,可能需要过滤固定X变量以将其转换为噪声。这是一个两步过程,需要区别和ARMA结构。为了保持客观性和避免模型规范偏差,不应使用滤波器,而应使用固定X系列的自相关特性构造该滤波器。然后,取Y系列,并应用使它平稳所需的任何微分算子,然后将先前开发的滤波器应用于平稳Y。此过程只有一个目标,那就是确定Y和X之间的关系。永远不要跳到所需差分算子的结论,ARMA过滤器和变量之间的关系,除非一位计量经济学家在观察数据之前便了解模型,或者您直接与全能者交谈。要想相信可以计算出的任何统计检验,必须对误差要求的正常性进行仔细的分析。F检验/ T检验的计算是必要的,但还不够。总而言之,我建议您继续学习“如何识别传递函数模型”这一主题。我和其他人已经多次讨论了这个问题。如果您愿意,可以仔细阅读对带有“时间序列”标签的问题的一些答案。正如瑜伽士所说:“您只需阅读/观看就可以观察到很多东西”。有时,好的答案和简单的答案可能会使您误入歧途,而像我这样的可能过于复杂/保守的答案可能会要求您对建模时间序列数据有更好的了解。正如曾经说过的:“托托,我们现在不在堪萨斯州(即横截面数据)!”