Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

1
每日数据的时间序列预测:带回归的ARIMA
我使用的是每日时间序列的销售数据,其中包含大约2年的每日数据点。根据一些在线教程/示例,我试图确定数据的季节性。似乎有一个每周一次,每月一次,可能还有每年一次的周期性/季节性。 例如,有发薪日,尤其是在该月中的第1个发薪日,该发炎日在一周中持续几天。还有一些特定的假日效应,通过观察观察可以清楚地识别出来。 配备了一些观察结果之后,我尝试了以下操作: ARIMA(带有R-forecast包Arima和auto.arima来自R-forecast包),使用回归器(以及函数中需要的其他默认值)。我创建的回归器基本上是一个0/1值的矩阵: 11个月(n-1)个变量 12个假期变量 无法计算发薪日部分...因为它的影响比我想象的要复杂得多。发薪日效应的工作方式有所不同,具体取决于每月1日的工作日。 我使用7(即每周频率)对时间序列进行建模。我尝试了该测试-一次预测7天。结果是合理的:预测11周的平均准确度平均每周RMSE为5%。 TBATS模型(来自R-forecast包)-使用多个季节性(7,30.4375,365.25),并且显然没有回归。在每周平均RMSE 3.5%的情况下,准确性出乎意料地优于ARIMA模型。 在这种情况下,没有ARMA错误的模型的性能会稍好一些。现在,如果我仅将#1中所述的ARIMA模型的假日效应系数应用于TBATS模型的结果,则每周平均RMSE改善为2.95% 现在,在对这些模型的基础理论没有足够的背景知识或知识的情况下,我感到困惑的是,这种TBATS方法是否有效。尽管它在11周的测试中显着提高了RMSE,但我想知道它将来是否可以保持这种准确性。甚至将ARIMA的假日效果应用于TBATS结果是合理的。任何/所有贡献者的任何想法都将受到高度赞赏。 测试数据链接 注意:执行“将链接另存为”以下载文件。

2
时间序列和异常检测
我想建立一种算法来检测时间序列中的异常,并且我打算为此使用聚类。 为什么我应该使用距离矩阵而不是原始时间序列数据进行聚类?, 为了检测异常,我将使用基于密度的聚类(一种作为DBscan的算法),在这种情况下行得通吗?是否有在线版本的流数据? 我想在异常发生之前就对其进行检测,因此,使用趋势检测算法(ARIMA)是一个不错的选择吗?

4
测试时间序列在统计上的显着差异?
我有两个证券A和B在相同时间段内以相同频率采样的时间序列。我想测试两个价格之间在时间上是否存在统计上的显着差异(我的零假设是差异为零)。具体来说,我使用价格差异作为市场效率的代理。想象一下,A和B是有价证券及其综合等价物(即,两者都声称拥有完全相同的现金流量)。如果市场有效,则两者的价格应完全相同(除非交易成本不同,等等),或者价格差为零。这就是我要测试的。最好的方法是什么? 我可能已经在“差异”时间序列(即AB时间序列)上直观地进行了双向t检验,并测试了 = 0。但是,我怀疑可能会有更强大的测试,其中考虑了潜在的同方差或异常值。总的来说,使用证券价格时需要注意什么?μ0μ0\mu_0

6
如何检测由于“政策”变更而导致的时间序列数据的重大变更?
我希望这是张贴此文章的正确地点,我考虑过将其张贴在怀疑论者身上,但我认为他们只是说这项研究在统计上是错误的。我对这个问题的另一面感到好奇,那就是如何正确地做到这一点。 作者在网站Quantified Self上发布了一项实验结果,该实验是对一段时间内自己测量的一些输出指标进行比较,并比较了突然停止喝咖啡前后的比较。对结果进行了主观评估,作者认为他有证据表明时间序列有变化,并且与政策的变化有关(饮用咖啡) 这让我想起了经济模型。我们只有一个经济体(目前正在关注),因此经济学家通常基本上在进行n = 1个实验。因此,几乎可以肯定的是,随着时间的推移数据是自相关的。美联储表示,经济学家通常在观察其启动一项政策的过程,并试图确定时间序列是否发生变化,这有可能是由于该政策造成的。 根据数据确定时间序列是增加还是减少的适当测试是什么?我需要多少数据?存在哪些工具?我最初的谷歌搜索建议使用马尔可夫切换时间序列模型,但并不是我的谷歌搜索技能让我无法使用该技术的名称来做任何事情。

1
时间序列邻接矩阵的本征函数?
考虑一个简单的时间序列: > tp <- seq_len(10) > tp [1] 1 2 3 4 5 6 7 8 9 10 我们可以为此时间序列计算一个邻接矩阵,该矩阵表示样本之间的时间链接。在计算此矩阵时,我们在时间0处添加了一个虚构位置,该观测值与时间1处的第一个实际观测值之间的链接称为链接0。在时间1和时间2之间,链接为链接1,依此类推。因为时间是定向过程,所以站点连接到站点“上游”的链接(受其影响)。因此,每个站点都连接到链接0,但链接9仅连接到站点10;它临时发生在除站点10之外的每个站点之后。这样定义的邻接矩阵如下创建: > adjmat <- matrix(0, ncol = length(tp), nrow = length(tp)) > adjmat[lower.tri(adjmat, diag = TRUE)] <- 1 > rownames(adjmat) <- paste("Site", seq_along(tp)) > colnames(adjmat) <- paste("Link", seq_along(tp)-1) > adjmat Link 0 …


1
如何检查状态空间时间序列分析中哪个模型更好?
我正在通过状态空间方法进行时间序列数据分析。根据我的数据,随机局部模型完全优于确定性模型。但是确定性水平和斜率模型给出的结果要好于随机水平和随机/确定性斜率。这是平常的吗?R中的所有方法都需要初始值,我在某处读到,首先拟合ARIMA模型,然后从那里取值作为状态空间分析的初始值是一种方法。可能?或任何其他主张?我应该在这里承认,我是状态空间分析的新手。

3
如何将一周的分钟数据汇总为小时数?
您将如何获得每日多个时段的每小时数据,并在同一图中显示12个“主机”的结果?也就是说,我想绘制一个24小时周期的样子,以获取一周的数据。最终目标是在采样之前和之后比较两组该数据。 dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 我已经能够很好地运行xyplot(CPUUser〜date | Host)。但是,我不想显示一周中的每个日期,而是希望将X轴作为一天中的小时数。 尝试将这些数据放入xts对象会导致错误,例如“ order.by需要适当的基于时间的对象” 这是数据帧的str(): 'data.frame': 19720 obs. of 5 variables: $ dates : POSIXct, format: "2011-02-11 23:55:12" "2011-02-11 23:55:10" ... $ …

3
很好的时间序列介绍(带R)
我目前正在收集有关与疼痛经历相关的社会心理特征的实验数据。为此,我将从参与者的电子方式收集GSR和BP测量值,以及各种自我报告和隐式测量值。我有心理背景,并且对因子分析,线性模型和实验分析很满意。 我的问题是,有什么好的(最好是免费的)资源可用于学习时间序列分析。对于这个领域,我是一个新手,因此,我们将不胜感激。我有一些试验数据可以练习,但是想在完成收集数据之前详细制定我的分析计划。 如果提供的参考文献也与R有关,那就太好了。 编辑:更改语法并添加“自我报告和隐含措施”


4
时间序列的统计相似性
假设一个人有一个时间序列,从中可以进行各种测量,例如周期,最大值,最小值,平均值等,然后使用它们来创建具有相同属性的模型正弦波,是否可以使用任何可以量化的统计方法实际数据与假设模型的拟合程度如何?该系列中的数据点数量将在10到50点之间。 我的一个非常简单的第一个想法是为正弦波的定向运动赋予一个值,即+1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 +1,对实际数据进行相同处理,然后以某种方式量化方向运动的相似度。 编辑:在考虑了我真正想对数据做些什么之后,并根据对原始问题的回答,我需要的是一种决策算法,可以在相互竞争的假设之间进行选择:即我的数据基本上是线性的(或趋势)带有可能包含循环元素的噪声;我的数据基本上是周期性的,没有方向性可言。数据本质上只是噪声;或正在这些状态之间转换。 我现在的想法是将贝叶斯分析和欧几里德/ LMS度量结合起来。这种方法的步骤将是 根据数据测量创建假定的正弦波 使LMS直线适合数据 推导一个欧几里德或LMS度量标准,以与上述各项的原始数据产生偏差 根据此指标为每个指标创建一个贝叶斯先验,即60%的合并偏离附加到一个,40%附加到另一个,因此有利于40% 沿数据滑动一个数据点并重复上述操作,以获取此稍有变化的数据集的新%指标-这是新证据-做贝叶斯分析以创建后验并更改有利于每个假设的概率 使用此滑动窗口(窗口长度为10-50个数据点)在整个数据集(3000个以上的数据点)中重复。希望/意图是确定数据集中任何时候的主要/偏爱的假设以及这种假设随时间的变化 对于这种潜在方法的任何评论都将受到欢迎,尤其是在如何实际实施贝叶斯分析部分方面。


5
如何同时处理多次序列?
我有一个数据集,其中包括25个期间的几种产品(1200种产品)的需求,我需要预测下一个时期每种产品的需求。起初,我想使用ARIMA并为每种产品训练一个模型,但是由于产品数量和(p,d,q)参数的调整,这非常耗时且不切实际。是否建议在先前需求为自变量的情况下使用回归(自回归)? 我能否知道是否有任何方法可以训练一个模型来预测所有1200种产品的需求?如果您能建议使用Python中的任何库,我将不胜感激,因为我正在使用Python。

2
为什么对时间序列的这种预测“非常糟糕”?
我正在尝试学习如何使用神经网络。我正在阅读本教程。 使用时间的值拟合神经网络以预测时间的值后,作者获得以下曲线图,其中蓝线是时间序列,绿色是对火车数据的预测,红色是对测试数据进行预测(他使用了测试序列拆分)ŤŤtt + 1Ť+1个t+1 并将其称为“我们可以看到该模型在拟合训练数据和测试数据集方面做得很差。它基本上预测出与输出相同的输入值。” 然后,作者决定使用,和来预测处的值。这样做获得ŤŤtt − 1Ť-1个t-1t − 2Ť-2t-2t + 1Ť+1个t+1 并说:“看图表,我们可以在预测中看到更多的结构。” 我的问题 为什么第一个“可怜”?在我看来,它几乎是完美的,它可以完美地预测每个变化! 同样,为什么第二个更好?“结构”在哪里?在我看来,这比第一个要差得多。 通常,对时间序列的预测什么时候好,什么时候不好?

1
多元生物学时间序列:VAR和季节性
我有一个多元时间序列数据集,其中包括相互作用的生物学和环境变量(可能还有一些外生变量)。除季节性外,数据中没有明显的长期趋势。我的目的是查看哪些变量彼此相关。预测并不是真正需要的。 作为时间序列分析的新手,我阅读了一些参考资料。据我了解,向量自回归(VAR)模型是合适的,但我对季节性并不满意,大多数示例都涉及到没有季节性的经济学领域(通常是时间序列分析……)。 我应该如何处理我的季节性数据?我考虑过对它们进行反季节化处理-例如在R中,我将使用decompose,然后使用这些$trend + $rand值来获得看起来非常平稳的信号(根据判断acf)。VAR模型的结果使我感到困惑(选择了1滞后模型,而我会凭直觉期望更多,并且只有自回归系数(而不是与其他滞后变量的回归系数)才有意义)。我是在做错什么,还是应该得出结论,我的变量不(线性)相关/我的模型不是一个好模型(子问题:是否存在与VAR等效的非线性?)。 [或者,我读到我可能可以使用虚拟的季节性变量,尽管我无法确切地知道如何实现它]。 逐步的建议将不胜感激,因为有经验的用户的详细信息实际上可能对我有帮助(当然,非常欢迎R代码段或指向具体示例的链接)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.