Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

2
平稳性的直观解释
我在脑海里挣扎了一段时间,这是您的想法吗?任何意见或进一步的想法将不胜感激。 平稳过程是一种生成时间序列值的过程,以使分布平均值和方差保持恒定。严格来说,这称为平稳性的弱形式或协方差/平均平稳性。 平稳性的弱形式是时间序列在整个时间中具有恒定的均值和方差。 简单地说,从业者说,平稳时间序列是没有趋势的-围绕恒定均值波动并且具有恒定方差。 不同滞后之间的协方差是恒定的,它不依赖于时间序列中的绝对位置。例如,t和t-1之间的协方差(一阶滞后)应始终相同(1960-1970年期间与1965-1975年期间或其他任何时期相同)。 在非平稳过程中,该序列不会恢复长期运行。因此,我们说非平稳时间序列并不意味着还原。在那种情况下,方差取决于时间序列中的绝对位置,并且随着时间的流逝方差变为无穷大。从技术上讲,自相关不会随时间衰减,但是在小样本中自相关确实会消失-尽管缓慢。 在固定过程中,冲击是暂时的,并且会随着时间的流逝消散(失去能量)。一段时间后,它们不会对新的时间序列值有所贡献。例如,第二次世界大战之前发生的事件(足够长的时间)产生了影响,但是今天的时间序列就像第二次世界大战从未发生过一样,我们可以说震撼失去了能量或消散。平稳性尤其重要,因为许多经典的计量经济学理论都是在平稳性的假设下得出的。 平稳性的一种强烈形式是,时间序列的分布与波谷时间完全相同。换句话说,原始时间序列的分布与滞后时间序列(有任何数量的滞后)甚至时间序列的子段完全相同。例如,强形式还表明,即使对于子细分市场1950-1960、1960-1970甚至是重叠的时期(如1950-1960和1950-1980),分布也应该相同。这种平稳形式称为强,因为它不假设任何分布。它只说概率分布应该相同。在平稳性较弱的情况下,我们通过均值和方差定义分布。我们可以简化一下,因为我们隐式地假设正态分布,正态分布完全由均值,方差或标准差定义。这只是说序列(在时间序列内)的概率测度与相同时间序列内值的滞后/移位序列的概率测度相同。

7
短时间序列值得建模吗?
这是一些背景。我有兴趣确定两个环境变量(温度,营养水平)如何影响11年内响应变量的平均值。每年,都有超过10万个位置的数据。 目的是确定在11年的时间段内,响应变量的平均值是否已响应环境变量的变化(例如,温度升高+更多养分将=更大响应)。 不幸的是,由于响应是平均值(不看平均值,只有规则的年际变化会淹没信号),因此回归将是11个数据点(每年1个平均值),并带有2个解释变量。在我看来,即使数据集非常小,线性正回归也很难被认为是有意义的(除非关系非常强,否则甚至不满足名义上的40点/变量)。 我做这个假设对吗?谁能提供我可能会缺少的其他想法/观点? PS:一些警告:没有等待更多年就无法获取更多数据。因此,可用数据是我们真正需要处理的。


4
平滑时间序列数据
我正在构建一个Android应用程序,该应用程序在睡眠期间记录加速度计数据,以便分析睡眠趋势并有选择地在轻度睡眠期间将用户唤醒在所需时间附近。 我已经建立了收集和存储数据以及警报的组件。我仍然需要以一种非常有意义和清晰的方式来应对显示和保存睡眠数据的难题,最好也可以进行分析。 几张图片说了两千个字:(由于重复率低,我只能发布一个链接) 这是未过滤的数据,以30秒为间隔收集的移动总和 和相同的数据,通过我自己的移动平均平滑表现进行了平滑 编辑)这两个图表都反映了校准-有一个最小的``噪声''过滤器和一个最大截止过滤器以及一个警报触发电平(白线) 不幸的是,这些都不是最优的解决方案-第一个对于普通用户来说有点难以理解,第二个更容易理解,却隐藏了很多实际情况。特别是,平均消除了运动中尖峰的细节,我认为这些可能是有意义的。 那么,为什么这些图表如此重要?这些时间序列会在整个晚上作为对用户的反馈进行显示,并将在以后存储以供查看/分析。平滑处理将理想地降低内存成本(RAM和存储),并使这些资源匮乏的电话/设备上的渲染速度更快。 显然,有一种更好的方法来平滑数据-我有一些模糊的想法,例如使用线性回归来找出运动中的“尖锐”变化,并据此修改移动平均值的平滑度。在深入研究可以更优化地解决问题之前,我确实需要更多指导和意见。 谢谢!

2
机器学习时间序列的排序
在阅读了RJ Hyndman的关于交叉验证和时间序列的“研究技巧”之一之后,我回到了我的一个老问题,我将在这里尝试表述。这个想法是,在分类或回归问题中,数据的排序并不重要,因此可以使用k倍交叉验证。另一方面,在时间序列中,数据的排序显然非常重要。 但是,当使用机器学习模型预测时间序列时,一种常见的策略是将序列为一组“输入-输出向量”,该向量在时间具有形式。{y1,...,yT}{y1,...,yT}\{y_1, ..., y_T\}ttt(yt−n+1,...,yt−1,yt;yt+1)(yt−n+1,...,yt−1,yt;yt+1)(y_{t-n+1}, ..., y_{t-1}, y_{t}; y_{t+1}) 现在,一旦完成了重塑,我们是否可以认为不需要对所得的“输入-输出向量”进行排序?例如,如果我们使用具有n个输入的前馈神经网络来“学习”这些数据,则无论我们向模型显示矢量的顺序如何,我们都将获得相同的结果。因此,我们是否可以使用k-fold交叉验证的标准方法,而无需每次都重新拟合模型?

4
应用ARMA-GARCH是否需要平稳性?
我将对金融时间序列使用ARMA-GARCH模型,并想知道在应用上述模型之前该序列是否应该是固定的。我知道要应用ARMA模型,该序列应该是平稳的,但是我不确定ARMA-GARCH,因为我包括了GARCH错误,这意味着波动性聚类和非恒定方差,因此无论如何进行变换,其序列都是非平稳的。 金融时间序列通常是固定的还是非固定的?我尝试将ADF测试应用于一些易失性序列,并得到p值<0.01,这似乎表明了平稳性,但易失性序列本身的原理告诉我们该序列不是平稳的。 有人可以帮我清理一下吗?我真的很困惑

3
两个离散傅立叶变换的相似性?
在气候建模中,您正在寻找可以充分描绘地球气候的模型。这包括显示半周期性的模式:诸如厄尔尼诺南方涛动。但是模型验证通常发生在相对短的时间段内,那里有不错的观测数据(近150年)。这意味着您的模型可能会显示正确的模式,但是却是异相的,因此线性比较(如相关性)将无法证明模型运行良好。 离散傅里叶变换通常用于分析气候数据(这里是一个示例),以获取这种循环模式。是否有任何标准度量可以用作验证工具的两个DFT相似性(即模型的DFT与观察值的DFT之间的比较)? 取两个面积归一化DFT中最小值的整数(使用绝对实数值)是否有意义?我认为这将导致一个分数,其中X = 1x∈[0,1]x∈[0,1]x\in[0,1]x=1⟹x=1⟹x=1\implies完全相同的模式,并且x=0⟹x=0⟹x=0\implies完全不同的模式。这种方法的缺点是什么?

1
我们为什么要关心MA过程是否可逆?
我很难理解为什么我们要关心MA过程是否可逆。 如果我错了,请纠正我,但我可以理解为什么我们关心AR进程是否是因果关系的,也就是说,如果我们可以“重写它”,可以说是某些参数和白噪声的总和-即移动平均过程。如果是这样,我们可以很容易地看到AR过程是因果的。 但是,我很难理解为什么我们要通过显示可逆性来表示是否可以将MA流程表示为AR流程。我不太了解我们为什么在乎。 任何见识都会很棒。

4
带有延迟和时间序列的多元线性回归之间的“机械”区别是什么?
我是商业和经济学专业的毕业生,目前正在攻读数据工程硕士学位。在研究线性回归(LR)然后进行时间序列分析(TS)时,我想到了一个问题。为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?所以老师建议我写一篇关于这个问题的文章。我不会徒劳地寻求帮助,所以我做了关于该主题的研究。 我已经知道使用LR时,如果违反了高斯-马尔可夫假设,则OLS回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(与此有关的另一个问题是,一个通用汽车假设是自变量应该是正态分布的?还是仅以自变量为条件的因变量?) 我也知道,当使用分布式滞后回归(这是我在这里提出的建议)并使用OLS估计参数时,变量之间的多重共线性可能(显然)会出现,因此估计将是错误的。 在关于TS和LR的类似帖子中,@ IrishStat说: ...回归模型是传递函数模型的一种特殊情况,也称为动态回归模型或XARMAX模型。重点是在时间序列中进行模型识别,即适当的差异,适当的X滞后,适当的ARIMA结构,适当的未确定的确定性结构的识别,例如脉冲,水平移动,本地时间趋势,季节性脉冲和合并必须考虑参数变化或误差变化。 (我也在Autobox中阅读了他关于Box Jenkins vs LR的论文。)但这仍然不能解决我的问题(或者至少没有为我澄清RL和TS的不同机制)。 显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?我已经读过ARIMA是通过最大似然估计的,因此,如果使用ML而不是OLS估计带有滞后的LR,它是否会产生“正确”的系数(让我们假设还包括滞后误差项,例如阶次MA) q)。 简而言之,是OLS问题吗?应用ML是否解决了问题?

1
R中具有多个外生变量的Arima时间序列预测(auto.arima)
我想基于具有多个外生变量的多个时间序列ARIMA模型进行预测。由于我对统计数据和RI都不希望保持尽可能简单(3个月的趋势预测就足够了)。 我有1个相关的时间序列和3-5个预测器时间序列,所有月度数据,无间隔,同时为“水平”。 我遇到了auto.arima函数,并问自己这是否适合我的问题。我有不同的商品价格和用它们制成的产品的价格。所有原始数据都是非平稳的,但是通过一阶微分,它们都变成了平稳数据。ADF,KPSS对此进行了说明。(这意味着我已经对集成进行了测试,对吗?)。 我现在的问题是:如何将它与auto.arima函数一起应用,而且ARIMA是否是正确的方法?一些人已经建议我使用VAR,但是ARIMA也可以吗? 下表是我的数据。实际上,数据集直到105个观测值为止,但前50个观测值可以。在这里,趋势和季节性显然很有趣。 感谢您的任何建议和帮助!格奥尔格
14 r  time-series  arima 

1
循环数据的时间序列建模
我正在为某些风/浪数据构建ARIMA模型。我为每个变量建立一个单独的模型。 我需要建模的两个变量是波浪和风向。值单位为度(0-360°)。是否可以对值间隔为圆形的此类数据建模?如果不是,哪种类型的模型最适合此类数据?

1
长期差异是多少?
如何定义时间序列分析领域中的长期差异? 我知道在数据中存在相关结构的情况下会使用它。因此,我们的随机过程不会是X1,X2…X1,X2…X_1, X_2 \dots iid随机变量的一个家族,而只会是相同分布的? 我可以将标准参考作为该概念及其估计中所涉及的困难的介绍吗?

2
使用R的时间序列分析过程和方法
我正在做一个小项目,我们试图预测未来6个月内商品(油,铝,锡等)的价格。我有12个这样的变量可以预测,并且我有2008年4月至2013年5月的数据。 我应该如何进行预测?我已经完成以下工作: 导入的数据作为时间序列数据集 所有变量的季节性都倾向于随趋势而变化,因此我将使用乘法模型。 我将变量的对数转换为加性模型 对于每个变量,使用STL分解数据 我打算使用Holt Winters指数平滑,ARIMA和神经网络进行预测。我将数据分为训练和测试(80、20)。计划选择MAE,MPE,MAPE和MASE较少的模型。 我做对了吗? 我还有一个问题是,在传递给ARIMA或神经网络之前,我应该对数据进行平滑处理吗?如果是,使用什么?数据显示季节性和趋势。 编辑: 附加时间序列图和数据 Year <- c(2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2011, 2011, 2011, …

1
使用Engle–Granger两步法测试两个时间序列之间的协整
我正在尝试测试两个时间序列之间的协整关系。这两个系列的每周数据跨度约为3年。 我正在尝试做Engle-Granger两步法。我的操作顺序如下。 通过增强Dickey-Fuller测试每个时间序列的单位根。 假设两者都有单位根,则通过OLS找到关系的线性近似。然后创建一系列残差。 通过增强Dickey-Fuller测试单位根的残差。 根据3的结果得出(或不)协整。 问题: 这种方法看起来还好吗?(我是一名本科生,我希望以一种合法的方式来分析我的数据,而不必以最严格的已知方法来对其进行分析。) 如果在第1步中一个序列不能用ADF拒绝零假设(因此没有单位根),是否可以合理地得出结论,因为一个数据集是非平稳的,所以两个序列未进行协整?我不这么认为,但我想确定。 两个数据集看起来都是“随机的”,所以我想知道使用OLS来测量关系以获得残差是否合适。

5
如何降低时间序列的趋势?
如何降低时间序列的趋势?可以先采取区别对待并进行Dickey Fuller测试,如果它静止不动,那么我们还好吗? 我还在网上发现,可以通过在Stata中进行以下操作来消除时间序列的趋势: reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) 降低时间序列的最佳方法是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.