时间序列分析中的陷阱


46

我只是在时间序列分析中开始自我学习。我注意到,存在许多潜在的陷阱,不适用于一般统计数据。因此,基于什么是常见的统计罪过?, 我想问一下:

时间序列分析中常见的陷阱或统计错误是什么?

这旨在作为社区Wiki,每个答案一个概念,请不要重复(或应该)列在“ 什么是常见的统计错误”上的更一般的统计陷阱

Answers:


18

在时间序列上外推线性回归,其中时间是回归中的自变量之一。线性回归可以在较短的时间尺度上近似时间序列,并且在分析中可能很有用,但是将直线外推是愚蠢的。(时间是无限且不断增加的。)

编辑:针对naught101关于“愚蠢”的问题,我的回答可能是错误的,但在我看来,大多数现实世界的现象不会永远持续增加或减少。大多数过程都有限制因素:随着年龄的增长,人们的身高不再增长,股票并不总是上涨,人口不能为负,您不能给十亿只幼犬装满房子等。时间与大多数自变量不同要记住,它具有无限的支持,因此您真的可以想象您的线性模型可以预测10年后的苹果股价,因为肯定会存在10年。(鉴于您不会推断身高体重回归来预测身高20米的成年男性的体重:它们不存在也不存在。)

另外,时间序列通常具有循环或伪循环分量或随机游动分量。正如IrishStat在他的回答中提到的那样,您需要考虑季节性(有时在多个时间尺度上是季节性),水平移动(这会对不考虑它们的线性回归产生奇怪的影响)等。忽略循环的线性回归将适合短期,但如果将其推论,则极易产生误导。

当然,无论何时进行推断(无论是否按时间顺序),都可能会遇到麻烦。但在我看来,我们经常看到有人将时间序列(犯罪,股票价格等)放入Excel,在其上放下FORECAST或LINEST并基本上通过一条直线来预测未来,就好像股票价格会不断上涨一样(或持续下降,包括变为负数)。


你能解释为什么它愚蠢吗?
naught101

1
+1很棒的例子。我正在精确地计算出我现在可以容纳多少只小狗:D
naught101

3
这很好地说明了您的观点:xkcd.com/605
Zach

1
@naught 马克·吐温的表现非常出色的表现,在最朴素可能的语言,为什么“愚蠢”是适当的时间序列的线性外推。
ub

这就是:stats.stackexchange.com/a/13904/9007 ...类似的一点是对多项式趋势(尤其是高次趋势)或任何其他与物理无关的模型进行外推。当我自学八度音阶时我写了一篇关于为什么这是一个坏主意博客文章
naught101

13

注意两个非平稳时间序列之间的相关性。(这并不奇怪,它们将具有较高的相关系数:搜索“无意义相关”和“协整”。)

例如,在Google关联上,狗和耳朵穿孔的相关系数为0.84。

有关更早的分析,请参见尤尔1926年对问题的探索


当然不总是如此。x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101 '04 -4-26

@Wayne非常感谢Yule的论文。自1970年以来,我一直在引用它,但从未真正阅读过。在一些看似很小的圈子中众所周知。
IrishStat 2012年

7

在最高层,Kolmogorov将独立性确定为统计中的关键假设-如果没有iid假设,那么统计中的许多重要结果都是不正确的,无论是应用于时间序列还是更广泛的分析任务。

大多数现实世界中的离散时间信号中的连续样本或附近样本不是独立的,因此必须注意将过程分解为确定性模型和随机噪声分量。即便如此,经典随机演算中的独立增量假设还是有问题的:回想一下1997年的经济诺贝尔奖和1998年的LTCM内幕爆破,将获奖者归入其本金(尽管公平地说,该基金的经理梅里(Merry)可能更应该被指责而不是量化。方法)。


“时间序列分析”作为研究领域。基本上,我的意思是任何可能使新手开始研究时间序列的事物(任何类型和任何类型的分析)。我不是在寻找全面的答案。检查我在问题中引用的问题,以了解我在这里尝试做的事情。
naught101

我的意思是什么类型的分析
alancalvitti 2012年

我知道。我认为您错过了问题的重点。在您经历过的任何类型的时间序列问题的任何类型分析中,请随意评论常见的绊脚石。只需解决特定于时间序列的问题即可。
naught101

嘿@alancalvitti,这个经济学例子听起来很有趣。您是否知道我们可以从此处链接到的详细说明?
naught101 '04

我编辑了此答案,以将其还原为提出的要点(使其恢复为每回答一个点的样式)。这意味着删除有关光谱分析的内容。也许可以在一个单独的答案中对此说些什么(尽管它似乎与陷阱无关,特别是,我们可能在此处注意到与频谱分析相关的陷阱)。上面的讨论现在没有任何意义,但我想您会明白的:/
naught101

2

由于使用的技术/模型(例如OLS)无法说明时间序列的自相关,因此过于确定模型的结果。

我没有一个漂亮的图形,但是《 R入门时间序列》(2009年,Cowpertwait等)一书给出了一个合理的直观解释:如果存在正自相关,则高于或低于平均值的值将趋于持续。并及时聚集在一起。这导致均值的估计效率降低,这意味着与零自相关相比,需要更多的数据来估计均值以达到相同的准确性。实际上,您拥有的数据少于您想象的。

OLS流程(因此也需要您)假设没有自相关,因此您还假设对均值的估计(对于您拥有的数据量)比实际更准确。因此,您最终对自己的结果更有信心。

(对于负自相关,这可以用另一种方式起作用:您对均值的估计实际上比其他方式更有效。我没有任何证据可以证明这一点,但是我建议正相关在大多数现实世界中更为普遍。比负相关的序列。)


这里有一个很好的例子,我不完全理解当前的答案
naught101

感谢@Wayne的编辑,但我的意思是一个真实的示例,最好带有可视化。显然,其他人也可以添加它-这是一个社区Wiki。
naught101 '04

1
@ naught101:嗯。我在这里提出的三个建议中的两个基于我所学到的知识,但不一定足以构成一个很好的例子。我会尝试在网上寻找一个。
韦恩

这只是模拟数据,但我对另一个问题的回答是,有些R代码的模型适合OLS,然后更恰当地考虑自相关-p值显着更高。 stats.stackexchange.com/questions/27254/…–
彼得·埃利斯

2

除一次脉冲外,电平转换,季节性脉冲和本地时间趋势的影响...。参数随时间的变化对于调查/建模很重要。必须调查误差随时间变化的可能变化。如何确定X的同时值和滞后值对Y的影响。如何确定X的未来值是否会影响Y的当前值。如何找出一个月中的特定日期会有影响。如何对小时数据受每日值影响的混合频率问题建模?

naught要求我提供有关电平转换和脉冲的更多具体信息/示例。为此,我现在包括更多讨论。表现出ACF的系列表明非平稳性实际上在传达“症状”。一种建议的补救措施是“区别”数据。一种被忽视的补救措施是“去除”数据。如果一个系列的平均值(即截距)具有“主要”水平移动,那么整个系列的acf可能会很容易被误解以暗示差异。我将展示一个序列发生水平偏移的示例,如果我强调(放大)了两者之间的差异,则意味着整个序列的acf会(错误地!)暗示需要差异。未经处理的脉冲/水平移动/季节性脉冲/本地时间趋势会使误差的方差膨胀,从而混淆了模型结构的重要性,并且是参数估计错误和预测欠佳的原因。现在举一个例子。钍在此处输入图片说明是27个月度值的列表。这是图在此处输入图片说明。有四个脉冲和一个电平移动且没有趋势!在此处输入图片说明在此处输入图片说明。该模型的残差表明存在白噪声过程在此处输入图片说明。由于假设了具有附加季节性因素的趋势模型,因此某些(大多数!)商业甚至免费的预测软件包提供了以下愚蠢的结果在此处输入图片说明。总结和释义马克吐温。“有废话,有废话,但其中最无意义的废话都是统计废话!” 相比起来更合理在此处输入图片说明。希望这可以帮助 !


1
真?这些都是陷阱罪过吗?(重新阅读问题的重点部分!)也许您的意思与您写的相反?
whuber

我的评论的目的是指出不娱乐或不考虑其中一些可能的现实世界结构的陷阱。人们需要避免未经合理验证的假设,否则可能会得到一些非常可疑的结果。
IrishStat

3
我收集到的信息是本意,但以目前的形式,您的答复很容易被误解。例如,评估“一次性脉冲”的“影响”是一种罪过,或者不这样做是一种罪过?这是非常模糊的,因此可以为任何一种解释提供一个很好的理由!(是的,这是一个罪过,因为一次性脉冲可能只是离群值,您不希望对其施加不适当的影响,并且考虑到所有这些因素都可能使模型过分参数化;不,需要将它们包括在内,因为其影响可能会持续存在很长一段时间,而忽略了这可能会使其他参数的估计产生偏差。)
whuber

@whuber如果一次脉冲的影响仍然存在,可以将其建模为连续点处的一次脉冲序列。这虽然不尽如人意,但仍然有效。正如您非常正确地指出的那样,您不想让错误的值使重复结构的参数估计值失真,因此,不对待不确定的确定性结构(例如脉冲,水平偏移,季节脉冲和/或本地时间趋势)是“罪过”的。
IrishStat 2012年

如果第一个句子(电平转换和脉冲)被大幅度扩展(带有一些示例),而其余部分被删除,我认为这将是一个非常有趣的答案。异方差可以提供一个很好的单独答案。
naught101 '04

1

将趋势定义为随时间的线性增长。

尽管某些趋势以某种方式是线性的(请参阅Apple股票价格),并且时间序列图看起来像是可以找到线性回归的折线图,但大多数趋势都不是线性的。

在特定的时间点发生了改变测量行为的情况(例如,“桥梁坍塌,自从开始,没有汽车驶过它 ”),存在阶跃变化,例如变化。

另一个流行的趋势是“嗡嗡声” -呈指数增长,随后又出现类似的急剧下降(“我们的营销活动取得了巨大成功,但效果在几周后就消失了”)。

知道时间序列趋势的正确模型(逻辑回归等)对于在时间序列数据中检测趋势的能力至关重要。


1

除了已经提到的一些要点之外,我还要补充:

  1. 无法发现长周期或季节性-通过仅检查“时间不足”时间段内的数据
  2. 未评估以往时期的预测误差(回测
  3. 未能发现和应对政权更迭

这些问题与所涉及的统计方法无关,而与研究的设计有关,即要包括哪些数据以及如何评估结果。

要点1的棘手部分是确保我们已经观察到足够的数据周期,以便对未来做出结论。在我第一次关于时间序列的演讲中,教授在黑板上画了一条长的正弦曲线,并指出当在一个较短的窗口中观察时,长周期看起来像线性趋势(相当简单,但这一课程对我不利)。

如果模型的误差有实际意义,则第2点特别重要。在其他领域中,该方法已在金融中得到广泛使用,但我认为,对于数据允许的所有时间序列模型,评估过去一段时间的预测误差非常有意义。

第三点再次谈到了过去数据的哪一部分代表未来。这是一个涉及大量文献的复杂主题-我将列举我的个人最爱:例如西葫芦和麦当劳


1

在采样的时间序列中避免混淆。如果要分析以固定间隔采样的时间序列数据,则采样率必须是所采样数据中最高频率分量频率的两倍。这是奈奎斯特采样理论,适用于数字音频,也适用于以固定间隔采样的任何时间序列。避免混叠的方法是滤除高于奈奎斯特速率的所有频率,该频率是采样速率的一半。例如,对于数字音频,48 kHz的采样率将需要一个截止频率低于24 kHz的低通滤波器。
由于频闪效应,在频闪率接近于车轮的转速时,由于频闪效应,当车轮出现向后旋转时,可以看到混叠的效果。观察到的慢速是实际转速的别名。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.