Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
关联音量时间序列
考虑下图: 红线(左轴)描述了某只股票的交易量。蓝线(右轴)描述了该股票的推特消息量。例如,在5月9日(05-09),进行了约110万笔交易和4.000条推文。 我想计算出时间序列之间是否存在相关性,无论是在同一天还是滞后-例如:推特交易量与一天后的交易量相关。我正在阅读许多进行过此类分析的文章,例如将财务时间序列与微博客活动相关联,但它们并未描述如何实际进行这种分析。文章中说明了以下内容: 但是,我很少有统计分析方面的经验,并且不知道如何在已有的系列文章中执行此操作。我使用SPSS(也称为PASW),我的问题是:从上面的图像基于数据文件的角度出发,要进行这样的分析需要采取哪些步骤?这样的测试是否是默认功能(称为“默认功能”)和/或我还可以执行它吗? 任何帮助将不胜感激 :-)

4
预测二进制时间序列
我有一个二进制时间序列,当汽车不动时为1,当汽车不动时为0。我想对未来36小时以及每个小时的时间范围进行预测。 我的第一种方法是通过以下输入使用朴素贝叶斯:t-24(每日季节性),t-48(每周季节性),一天中的小时。但是,结果不是很好。 您为该问题推荐哪些文章或软件?

5
如何分析非周期时间序列中的趋势
假设我有以下非周期性的时间序列。显然,这种趋势正在减少,我想通过一些测试(使用p值)证明这一趋势。由于值之间存在强烈的时间(序列)自相关,因此我无法使用经典的线性回归。 library(forecast) my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9, 6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1), start = 1, end = 27,frequency = 1) plot(my.ts, col = "black", type = "p", pch = 20, cex = 1.2, ylim = c(0,13)) # line of moving averages lines(ma(my.ts,3),col="red", lty = 2, lwd = 2) 我有什么选择?
12 r  time-series 


1
漂移序列与趋势序列之间的差异
可以将具有漂移的序列建模为 ,其中是漂移(常数),并且。 yt=c+ϕyt−1+εtyt=c+ϕyt−1+εty_t = c + \phi y_{t-1} + \varepsilon_tcccϕ=1ϕ=1\phi=1 可以将具有趋势的序列建模为,其中是漂移(常数),是确定的时间趋势,。yt=c+δt+ϕyt−1+εtyt=c+δt+ϕyt−1+εty_t = c + \delta t + \phi y_{t-1} + \varepsilon_tcccδtδt\delta tϕ=1ϕ=1\phi=1 这两个系列都是,我认为两者都表现出越来越高的行为。I(1)I(1)I(1) 如果我有一个表现出越来越高的表现的新系列,我怎么知道这个系列是具有漂移或趋势的系列? 我可以做两个ADF测试: ADF测试1:零假设是级数为具有漂移的I(1)I(1)I(1) ADF测试2:零假设是具有趋势的序列I(1)I(1)I(1) 但是,如果两个测试的原假设都不被拒绝怎么办?

3
开发适当的时间序列模型以根据上个月的记录预测销售
我已经连续两年从事在线业务,因此我拥有大约两年的月度销售数据。我每个月的业务肯定会受到季节性波动的影响(圣诞节期间的表现更好,等等),可能还有一些我不知道的其他因素。 为了更好地预测未来的销售,并评估我的销售活动的有效性或新竞争对手的影响,我希望能够开发一个适当的时间序列模型,以将我当前的销售数据推算到未来。这样,当我将预测结果与实际结果进行比较时,我可以定量地测试销售活动的有效性或竞争对手的影响。 我的问题是,鉴于我拥有2年的销售数据,无论如何,我是否可以为此制定一个预测性的时间序列模型? 注意:我对背景概念和理论更感兴趣,而不是黑匣子工具。说到工具,我有mathematica,matlab,R,Excel,Google Spreadsheet...。

3
何时通过最小化AIC选择型号?
公认的是,至少在某些较高水平的统计学家中,具有AIC统计值在最小值某个阈值内的模型应被认为是使AIC统计量最小的模型是适当的。例如,在[1,第221页]中,我们发现 然后,具有较小GCV或AIC的模型将被认为是最好的。当然,不应仅仅盲目地将GCV或AIC最小化。而是,应将所有具有较小GCV或AIC值的模型视为潜在适当模型,并应根据其简单性和科学相关性对其进行评估。 同样,在[2,p.144]中, 有人建议(Duong,1984年),将AIC值设在最小值c之内的模型应认为具有竞争力(c = 2为典型值)。然后可以基于诸如残差的白度(第5.3节)和模型简单性等因素从竞争模型中进行选择。 参考文献: 鲁珀特,D .;Wand,MP和Carrol,RJ 半参数回归,剑桥大学出版社,2003年 Brockwell,PJ和Davis,RA 时间序列和预测简介,John Wiley&Sons,1996年 因此,鉴于以上所述,以下两个模型中的哪一个应该是首选? print( lh300 <- arima(lh, order=c(3,0,0)) ) # ... sigma^2 estimated as 0.1787: log likelihood = -27.09, aic = 64.18 print( lh100 <- arima(lh, order=c(1,0,0)) ) # ... sigma^2 estimated as 0.1975: log likelihood = -29.38, aic …

3
什么是二阶平稳过程?
我想知道在Brockwell和Davis的《时间序列和预测简介》中如何定义他的“二阶平稳过程” : 线性时间序列模型的类别(包括自回归移动平均(ARMA)模型的类别)为研究平稳过程提供了一个通用框架。实际上,每个二阶平稳过程要么是线性过程,要么可以通过减去确定性分量而转换为线性过程。这个结果称为Wold分解,将在2.6节中讨论。 在Wikipedia中, 当严格平稳性的要求仅应用于时间序列中的随机变量对时,便出现了二阶平稳性。 但是我认为这本书与Wikipedia有不同的定义,因为该书使用平稳性是广义的平稳性,而Wikipedia使用平稳性是严格的平稳性。 感谢致敬!

1
动态因素分析与状态空间模型
R中的MARSS软件包提供了用于动态因子分析的功能。在此程序包中,动态因子模型被编写为状态空间模型的一种特殊形式,并且它们假定遵循AR(1)过程的共同趋势。由于我对这两种方法不太熟悉,因此我提出了两个问题: 动态因子分析是状态空间模型的一种特殊形式吗?这两种方法有什么区别? 此外,动态因素分析并不一定假定AR(1)过程具有共同趋势。是否有任何软件包可以使通用趋势作为季节性ARIMA(或其他)过程?

3
两个时间序列之间的关系:ARIMA
给定以下两个时间序列(x,y;见下文),在此数据中长期趋势之间的关系建模的最佳方法是什么? 当作为时间的函数进行建模时,两个时间序列都具有显着的Durbin-Watson检验,而且都不是平稳的(据我所知,这是否意味着它只需要在残差中保持平稳?)。有人告诉我,这意味着我应该先取每个时间序列的一阶差(至少,甚至是二阶),然后才能将一个模型建模为另一个函数,本质上是利用arima(1,1,0 ),arima(1,2,0)等。 我不明白为什么您需要在建模之前就下降趋势。我知道需要对自相关建模,但我不明白为什么需要进行微分。对我而言,似乎通过差分进行的去趋势消除了我们感兴趣的数据中的主要信号(在这种情况下为长期趋势),并留下了高频“噪声”(宽松地使用噪声)。确实,在模拟中,我在一个时间序列与另一个时间序列之间建立了几乎完美的关系,并且没有自相关关系,对时间序列求差使我得到的结果对于关系检测而言是违反直觉的,例如, a = 1:50 + rnorm(50, sd = 0.01) b = a + rnorm(50, sd = 1) da = diff(a); db = diff(b) summary(lmx <- lm(db ~ da)) 在这种情况下,b与a密切相关,但是b具有更多的噪声。对我来说,这表明在检测低频信号之间的关系的理想情况下,差分并不起作用。我了解到,差分通常用于时间序列分析,但是对于确定高频信号之间的关系似乎更有用。我想念什么? 示例数据 df1 <- structure(list( x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, …

3
将时间序列数据拆分为训练/测试/验证集
将时间序列数据拆分为训练/测试/验证集的最佳方法是什么,其中验证集将用于超参数调整? 我们拥有3年的每日销售数据,我们的计划是将2015-2016年用作培训数据,然后从2017年数据中随机抽取10周作为验证集,并从2017年数据中随机抽取10周作为测试集。然后,我们将在测试和验证集中的每一天向前走。

3
ACF和PACF如何识别MA和AR术语的顺序?
我从事不同的时间序列已经超过2年了。我读过许多文章,其中ACF用于标识MA术语的顺序,而PACF用于标识AR。有一条经验法则,对于MA,ACF突然关闭的延迟是MA的顺序,对于PACF和AR同样。 这是我从PennState Eberly College of Science所读的文章之一。 我的问题是为什么呢?对我来说,甚至ACF都可以赋予AR术语。我需要上述拇指法则的解释。我无法直观/数学地理解拇指法则,为什么- 通常,最好使用PACF来识别AR模型。 通常,最好使用ACF而非PACF来完成MA模型的识别 请注意:-我不需要,但是“为什么”。:)

2
对数差异时间序列模型是否优于增长率?
我经常看到作者估计“对数差异”模型,例如 log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t 我同意这是恰当的关联在变化的百分比而为。xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) 但是对数差异是一个近似值,似乎无需对数转换也可以估算一个模型,例如 yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t 此外,增长率将精确地描述百分比变化,而对数差异将仅近似于百分比变化。 但是,我发现对数差异法的使用频率更高。实际上,使用增长率似乎与解决第一个差异一样适合解决平稳性问题。实际上,我发现将对数变量转换回级别数据时,预测会变得有偏差(在文献中有时称为重新转换问题)。yt/yt−1yt/yt−1y_t/y_{t-1} 与增长率相比,使用对数差异有什么好处?增长率转换是否存在任何固有问题?我猜想我遗漏了一些东西,否则更频繁地使用该方法似乎很明显。

3
R中用于中断时间序列分析的资源
我对R相当陌生。我尝试阅读时间序列分析,并且已经完成 Shumway和Stoffer的时间序列分析及其应用第3版, Hyndman出色的预测:原理和实践 艾薇儿·科兰(Avril Coghlan)使用R进行时间序列分析 A. Ian McLeod等人的R时间序列分析 Marcel Dettling博士的应用时间序列分析 编辑:我不确定如何处理此问题,但我发现了交叉验证之外的有用资源。我想把它包括在这里,以防有人偶然发现这个问题。 药物使用研究中中断时间序列研究的分段回归分析 我有一个连续7年每天测量的消耗项目数(计数数据)的单变量时间序列。大约在时间序列的中间对研究人群进行了干预。预计这种干预不会立即产生效果,而且效果发生的时间基本上是不可知的。 使用Hyndman的forecast软件包,我使用来将ARIMA模型拟合到干预前的数据auto.arima()。但是我不确定如何使用这种拟合来回答趋势是否存在统计上显着的变化并量化数量。 # for simplification I will aggregate to monthly counts # I can later generalize any teachings the community supplies count <- c(2464, 2683, 2426, 2258, 1950, 1548, 1108, 991, 1616, 1809, 1688, 2168, 2226, 2379, 2211, …
12 r  time-series 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.