Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

9
计数数据的时间序列,计数<20
我最近开始为结核病诊所工作。我们会定期开会,讨论我们目前正在治疗的结核病病例数,进行的检测数目等。我想开始对这些计数进行建模,以便我们不只是猜测是否有异常。不幸的是,我几乎没有时间序列方面的培训,并且我大部分时间都在接触非常连续的数据(股价)或大量计数(流感)的模型。但是我们每月处理0-18例(平均6.68,中位数7,变量12.3),分布情况如下: [图像迷失在时间的迷雾中] [被烟灰吞噬的图像] 我已经找到了一些有关此类模型的文章,但我非常感谢听到您的建议-无论是方法还是我可以用来实现这些方法的R包。 编辑: mbq的回答迫使我对我在这里要问的问题进行更仔细的思考。我对每月的工作太挂了,失去了问题的实际重点。我想知道的是:(从2008年开始)(明显可见)的下降是否反映了案件总数的下降趋势?在我看来,2001-2007年间每月的案件数量反映了一个稳定的过程;也许有些季节性,但总体稳定。从2008年至今,情况似乎正在发生变化:案件总数正在下降,尽管由于随机性和季节性,每月的案件数可能会上下波动。如何测试流程中是否存在真正的变化?如果我能确定下降,

1
注意力机制到底是什么?
在过去的几年中,各种深度学习论文都使用了注意力机制。Open AI研究负责人Ilya Sutskever热情地称赞了他们:https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 普渡大学的Eugenio Culurciello声称应该放弃RNN和LSTM,而转而使用纯粹基于注意力的神经网络: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 这似乎有点夸张,但不可否认的是,纯粹基于注意力的模型在序列建模任务中做得很好:我们都知道Google恰当命名的论文,Attention是您所需要的 但是,基于注意力的模型到底是什么?我还没有找到关于此类模型的清晰说明。假设我要根据给定的历史值来预测多元时间序列的新值。很清楚如何使用具有LSTM单元的RNN来做到这一点。对于基于注意力的模型,我该怎么做?

3
时间序列中的AIC与交叉验证:小样本案例
我对时间序列设置中的模型选择感兴趣。具体来说,假设我要从具有不同滞后顺序的ARMA模型池中选择一个ARMA模型。最终目的是预测。 型号选择可以通过 交叉验证, 使用信息标准(AIC,BIC), 在其他方法中。 Rob J. Hyndman提供了一种对时间序列进行交叉验证的方法。对于相对较小的样本,交叉验证中使用的样本大小可能与原始样本大小在质量上有所不同。例如,如果原始样本大小为200个观测值,则可以考虑通过获取前101个观测值并将窗口扩展到102、103,...,200个观测值来获得100个交叉验证结果,从而开始交叉验证。显然,对于200个观测值而言,合理地简约的模型对于100个观测值而言可能太大,因此其验证误差将很大。因此,交叉验证可能会系统地偏爱过于简约的模型。由于样本大小不匹配,这是不希望的效果。 交叉验证的替代方法是使用信息标准进行模型选择。由于我关心预测,因此我将使用AIC。尽管AIC渐近等效于最小化时间序列模型的样本外一步预测MSE(根据Rob J.Hyndman的帖子),但我怀疑这与样本有关在这里是否有意义我关心的尺寸不是很大... 问题:对于中/小样本,我应该在时间序列交叉验证中选择AIC吗? 一些相关的问题可以在这里,这里和这里找到。

2
自相关时间的定义(有效样本量)
我在文献中为弱固定时间序列的自相关时间找到了两个定义: τ一种= 1 + 2 ∑k = 1∞ρķ与τb= 1 + 2 ∑k = 1∞| ρķ|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| 其中是滞后的自相关。 kρķ= Cov [ XŤ,X吨+ 小时]变量[ XŤ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}ķkk 自相关时间的一种应用是找到“有效样本量”:如果您对一个时间序列有观测值,并且知道它的自相关时间,那么您可以假装您拥有τñnnττ\tau ñ效= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 为了找到平均值,独立样本而不是相关样本。从数据中估计并非易事,但有几种方法可以做到这一点(请参阅Thompson 2010)。τñnnττ\tau 没有绝对值的定义在文献中似乎更常见;但它承认的可能性。使用R和“ coda”包:τ 一个 &lt; 1τ一种τa\tau_aτ一种&lt; 1τa&lt;1\tau_a<1 require(coda) …

1
如何分解具有多个季节性成分的时间序列?
我有一个包含双重季节性成分的时间序列,我想将该序列分解为以下时间序列成分(趋势,季节性成分1,季节性成分2和不规则成分)。据我所知,用于分解R中序列的STL过程仅允许一个季节性成分,因此我尝试了两次分解序列。首先,使用以下代码将频率设置为第一个季节性成分: ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 然后,我dec_1通过将频率设置为第二个季节性分量来分解分解系列()的不规则分量,从而: ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") 我对这种方法不是很自信。而且我想知道是否还有其他方法可以分解具有多个季节性的序列。另外,我注意到tbats()R 预测软件包中的函数允许一个模型适合具有多个季节性的序列,但是它并未说明如何使用它来分解一个序列。

3
支持向量回归用于多元时间序列预测
有没有人尝试使用支持向量回归进行时间序列预测? 我了解支持向量机,部分了解支持向量回归,但是我不了解如何将其用于建模时间序列,尤其是多元时间序列。 我试图阅读一些论文,但是它们的水平太高了。谁能用外行的方式解释他们将如何工作,尤其是在多元时间序列方面? 编辑:详细说明一下,让我尝试用股价示例进行说明。 假设我们有N天的股价。然后,对于每一天,我们可以构造一个特征向量,在一个简单的情况下,它可以是前一天的价格和当天的价格。每个特征向量的响应将是第二天的价格。因此,给定昨天的价格和今天的价格,目标是预测第二天的价格。我不明白的是,假设我们有六个月的训练数据,您如何将重点放在较新的特征向量上?

2
平均绝对比例误差(MASE)的解释
平均绝对比例误差(MASE)是对预测准确性的一种度量,由 Koehler&Hyndman(2006)。 MASE=MAEMAEin−sample,naiveMASE=MAEMAEin−sample,naiveMASE=\frac{MAE}{MAE_{in-sample, \, naive}} 其中是实际预测产生的平均绝对误差; 而M A E i n − s a m p lMAEMAEMAE是天真预测产生的平均绝对误差(例如,积分I(1MAEin−sample,naiveMAEin−sample,naiveMAE_{in-sample, \, naive}样本内数据计算出)时间序列。I(1)I(1)I(1) (查看 Koehler&Hyndman(2006)的文章以获取精确的定义和公式。) 意味着实际的预测确实恶化了样品的比幼稚预测样品一样,在平均绝对误差的条款。因此,如果平均绝对误差是预测准确性的相关度量(取决于当前的问题),则 M A S E &gt; 1MASE&gt;1MASE&gt;1MASE>1MASE&gt;1MASE&gt;1MASE>1表示,如果我们期望超出预期范围,则应放弃实际预测,而采用幼稚的预测样本数据非常类似于样本中的数据(因为我们只知道样本中的幼稚预测执行得很好,而不是样本外)。 题: 作为在此提出一个预测竞争的标杆Hyndsight博客文章。一个明显的基准应该不是 M A S E =MASE=1.38MASE=1.38MASE=1.38吗?MASE=1MASE=1MASE=1 当然,这个问题并不特定于特定的预测竞赛。我希望在更一般的背景下帮助您理解这一点。 我猜: 我看到的唯一合理的解释是,由于结构的变化,天真的预测在样本外的表现要比样本中的表现差得多。然后可能已经太具有挑战性的实现。MASE&lt;1MASE&lt;1MASE<1 参考文献: Hyndman,Rob J.和Anne B. Koehler。“ 另一种方法是对预测准确性的度量。 ”国际预测杂志》 22.4(2006年):679-688。 Hyndsight博客文章。

2
如何对时间序列进行聚类?
我有关于聚类分析的问题。有3000家公司,必须根据5年内的用电量进行分组。每个公司在5年中每小时都有价值。我想找出在一段时间内某些公司的使用功率模式是否相同。结果应用于每日用电量预测。如果您对如何在SPSS中对时间序列进行聚类有什么想法,请与我分享。

2
可以将PCA应用于时间序列数据吗?
我知道主成分分析(PCA)基本上可以应用于横截面数据。通过将年份指定为时间序列变量并正常运行PCA,PCA能否有效地用于时间序列数据?我发现动态PCA适用于面板数据,并且Stata中的编码是针对面板数据而非时间序列设计的。是否有适用于时间序列数据的任何特定类型的PCA? 更新。让我详细解释。 目前,我正在构建印度基础设施指数,该指数包含道路长度,铁路路线长度,发电量,电话用户数量等变量。对于一个国家/地区,我在22年内拥有12个变量。尽管我已经审查了将PCA应用于时间序列甚至面板数据的论文,但PCA是为假设iid的横截面数据而设计的。面板和横截面数据违反了该规则,并且PCA未考虑其中的时间序列维度。我看到动态PCA仅应用于面板数据。我想知道是否有在时间序列上应用的特定PCA或运行将年份定义为时间序列变量的静态PCA可以完成这项工作?
22 time-series  pca 


3
分析ACF和PACF图
我想看看我是否在分析我的ACF和PACF曲线的正确轨道上: 背景:(参考文献:菲利普·汉斯·弗朗西斯,1998年) 由于ACF和PACF都显示出重要的价值,因此我认为ARMA模型将满足我的需求 ACF可用于估计MA部分,即q值,PACF可用于估计AR部分,即p值 为了估计模型阶数,我查看了a。)ACF值是否足够消亡,b。)ACF信号是否过度差分,以及c。)ACF和PACF在某些滞后是否显示任何明显且易于解释的峰值 ACF和PACF可能不仅建议一种模型,而且在考虑其他诊断工具后需要从许多模型中进行选择 考虑到这一点,我继续说,最明显的模型似乎是ARMA(4,2),因为ACF值在滞后4处消失,而PACF在1和2处出现尖峰。 另一种分析方法是ARMA(2,1),因为我看到我的PACF中出现两个明显的峰值,而我的ACF中出现一个明显的峰值(此后,值从更低的点(0.4)开始消失。 查看我的样本内预测结果(使用简单的平均绝对百分比误差),ARMA(2,1)的结果要比ARMA(4,2)好得多。所以我使用ARMA(2,1)! 您能否确认我的分析ACF和PACF图的方法和发现? 帮助赞赏! 编辑: 描述性统计: count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': -3.4487489051519011, '10%': …


1
如何对齐/同步两个信号?
我正在做一些研究,但是一直停留在分析阶段(应该更多地关注我的统计讲座)。 我收集了两个同时发生的信号:对体积进行积分的流速和对胸部扩张的改变。我想比较这些信号,最终希望从胸部扩张信号中得出体积。但是首先我必须对齐/同步我的数据。 由于记录不是在同一时间开始,并且胸部扩展被捕获的时间更长,因此我需要在胸部扩展数据集中找到与我的体数据相对应的数据,并衡量它们的对齐程度。如果两个信号不是完全同时启动,或者不是在不同比例和不同分辨率的数据之间启动,我不太确定该如何处理。 我已经附上了这两个信号的示例(https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc),请告诉我是否还有其他信息。

1
时间序列的逻辑回归
考虑到过去的观察,我想在流数据(多维时间序列)的上下文中使用二进制逻辑回归模型,以便预测刚刚到达的数据(即行)的因变量的值。据我所知,逻辑回归通常用于事后分析,因为每个因变量均已设置(通过检查或研究性质)。 但是在时间序列的情况下会发生什么,我们要根据历史数据(例如,在最后秒的时间窗口中)(当然是前一个)动态地对因变量进行预测估计因变量?ŤŤt 并且,如果您随着时间的推移看到上述系统,应该如何构建它才能使回归正常工作?我们是否必须首先通过标记数据的前50行(即将因变量设置为0或1)来训练它,然后使用向量的当前估计值来估计它的新概率?因变量是刚到达的数据的0或1(即刚添加到系统的新行)?ββ{\beta} 为了使我的问题更清楚,我尝试建立一个系统来逐行解析数据集,并在给定所有先前因果关系或解释性知识(观察或估计)的情况下,对二进制结果(因变量)进行预测到达固定时间窗口的变量。我的系统在Rerl中,并使用R进行推断。

3
具有每日数据的自动ARIMA:如何捕获季节性/周期性?
我正在每天时间序列上拟合ARIMA模型。从2010年2月1日到2011年7月30日每天收集数据,这些数据与报纸的销售有关。由于可以发现每周的销售模式(星期一至星期五的每日平均销售份数通常相同,然后在星期六和星期日增加),因此我试图捕捉这种“季节性”。给定销售数据“数据”,我按如下方式创建时间序列: salests&lt;-ts(data,start=c(2010,1),frequency=365) 然后使用auto.arima(。)函数通过AIC准则选择最佳的ARIMA模型。结果始终是非季节性的ARIMA模型,但是如果我尝试使用以下语法作为示例的SARIMA模型,例如: sarima1&lt;-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) 我可以获得更好的结果。ts命令/ arima规范中是否有任何错误?每周模式非常强大,因此我不希望在捕获它时遇到太多困难。任何帮助将非常有用。谢谢朱莉娅·德皮里(Giulia Deppieri) 更新: 我已经改变了一些论点。更准确地说,当我设置时,该过程选择ARIMA(4,1,3)作为最佳模型D=7,但AIC和其他拟合指数和预测良好的方法根本没有改善。我猜是由于季节性和周期性之间的混淆导致一些错误。 使用Auto.arima调用并获得输出: modArima&lt;-auto.arima(salests,D=7,max.P = 5, max.Q = 5) ARIMA(2,1,2) with drift : 1e+20 ARIMA(0,1,0) with drift : 5265.543 ARIMA(1,1,0) with drift : 5182.772 ARIMA(0,1,1) with drift : 1e+20 ARIMA(2,1,0) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.