我只是在时间序列分析中开始自我学习。我注意到,存在许多潜在的陷阱,不适用于一般统计数据。因此,基于什么是常见的统计罪过?, 我想问一下:
时间序列分析中常见的陷阱或统计错误是什么?
我只是在时间序列分析中开始自我学习。我注意到,存在许多潜在的陷阱,不适用于一般统计数据。因此,基于什么是常见的统计罪过?, 我想问一下:
时间序列分析中常见的陷阱或统计错误是什么?
Answers:
在时间序列上外推线性回归,其中时间是回归中的自变量之一。线性回归可以在较短的时间尺度上近似时间序列,并且在分析中可能很有用,但是将直线外推是愚蠢的。(时间是无限且不断增加的。)
编辑:针对naught101关于“愚蠢”的问题,我的回答可能是错误的,但在我看来,大多数现实世界的现象不会永远持续增加或减少。大多数过程都有限制因素:随着年龄的增长,人们的身高不再增长,股票并不总是上涨,人口不能为负,您不能给十亿只幼犬装满房子等。时间与大多数自变量不同要记住,它具有无限的支持,因此您真的可以想象您的线性模型可以预测10年后的苹果股价,因为肯定会存在10年。(鉴于您不会推断身高体重回归来预测身高20米的成年男性的体重:它们不存在也不存在。)
另外,时间序列通常具有循环或伪循环分量或随机游动分量。正如IrishStat在他的回答中提到的那样,您需要考虑季节性(有时在多个时间尺度上是季节性),水平移动(这会对不考虑它们的线性回归产生奇怪的影响)等。忽略循环的线性回归将适合短期,但如果将其推论,则极易产生误导。
当然,无论何时进行推断(无论是否按时间顺序),都可能会遇到麻烦。但在我看来,我们经常看到有人将时间序列(犯罪,股票价格等)放入Excel,在其上放下FORECAST或LINEST并基本上通过一条直线来预测未来,就好像股票价格会不断上涨一样(或持续下降,包括变为负数)。
注意两个非平稳时间序列之间的相关性。(这并不奇怪,它们将具有较高的相关系数:搜索“无意义相关”和“协整”。)
例如,在Google关联上,狗和耳朵穿孔的相关系数为0.84。
有关更早的分析,请参见尤尔1926年对问题的探索
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
在最高层,Kolmogorov将独立性确定为统计中的关键假设-如果没有iid假设,那么统计中的许多重要结果都是不正确的,无论是应用于时间序列还是更广泛的分析任务。
大多数现实世界中的离散时间信号中的连续样本或附近样本不是独立的,因此必须注意将过程分解为确定性模型和随机噪声分量。即便如此,经典随机演算中的独立增量假设还是有问题的:回想一下1997年的经济诺贝尔奖和1998年的LTCM内幕爆破,将获奖者归入其本金(尽管公平地说,该基金的经理梅里(Merry)可能更应该被指责而不是量化。方法)。
由于使用的技术/模型(例如OLS)无法说明时间序列的自相关,因此过于确定模型的结果。
我没有一个漂亮的图形,但是《 R入门时间序列》(2009年,Cowpertwait等)一书给出了一个合理的直观解释:如果存在正自相关,则高于或低于平均值的值将趋于持续。并及时聚集在一起。这导致均值的估计效率降低,这意味着与零自相关相比,需要更多的数据来估计均值以达到相同的准确性。实际上,您拥有的数据少于您想象的。
OLS流程(因此也需要您)假设没有自相关,因此您还假设对均值的估计(对于您拥有的数据量)比实际更准确。因此,您最终对自己的结果更有信心。
(对于负自相关,这可以用另一种方式起作用:您对均值的估计实际上比其他方式更有效。我没有任何证据可以证明这一点,但是我建议正相关在大多数现实世界中更为普遍。比负相关的序列。)
除一次脉冲外,电平转换,季节性脉冲和本地时间趋势的影响...。参数随时间的变化对于调查/建模很重要。必须调查误差随时间变化的可能变化。如何确定X的同时值和滞后值对Y的影响。如何确定X的未来值是否会影响Y的当前值。如何找出一个月中的特定日期会有影响。如何对小时数据受每日值影响的混合频率问题建模?
naught要求我提供有关电平转换和脉冲的更多具体信息/示例。为此,我现在包括更多讨论。表现出ACF的系列表明非平稳性实际上在传达“症状”。一种建议的补救措施是“区别”数据。一种被忽视的补救措施是“去除”数据。如果一个系列的平均值(即截距)具有“主要”水平移动,那么整个系列的acf可能会很容易被误解以暗示差异。我将展示一个序列发生水平偏移的示例,如果我强调(放大)了两者之间的差异,则意味着整个序列的acf会(错误地!)暗示需要差异。未经处理的脉冲/水平移动/季节性脉冲/本地时间趋势会使误差的方差膨胀,从而混淆了模型结构的重要性,并且是参数估计错误和预测欠佳的原因。现在举一个例子。钍是27个月度值的列表。这是图。有四个脉冲和一个电平移动且没有趋势!和。该模型的残差表明存在白噪声过程。由于假设了具有附加季节性因素的趋势模型,因此某些(大多数!)商业甚至免费的预测软件包提供了以下愚蠢的结果。总结和释义马克吐温。“有废话,有废话,但其中最无意义的废话都是统计废话!” 相比起来更合理。希望这可以帮助 !
除了已经提到的一些要点之外,我还要补充:
这些问题与所涉及的统计方法无关,而与研究的设计有关,即要包括哪些数据以及如何评估结果。
要点1的棘手部分是确保我们已经观察到足够的数据周期,以便对未来做出结论。在我第一次关于时间序列的演讲中,教授在黑板上画了一条长的正弦曲线,并指出当在一个较短的窗口中观察时,长周期看起来像线性趋势(相当简单,但这一课程对我不利)。
如果模型的误差有实际意义,则第2点特别重要。在其他领域中,该方法已在金融中得到广泛使用,但我认为,对于数据允许的所有时间序列模型,评估过去一段时间的预测误差非常有意义。
第三点再次谈到了过去数据的哪一部分代表未来。这是一个涉及大量文献的复杂主题-我将列举我的个人最爱:例如西葫芦和麦当劳。