Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

2
建立一个时间序列,其中包含每个日期的多个观测值
我正在尝试将时间序列应用于10年期间的季度采样数据(动物生物质),每季度3次。因此有40个日期,但总共有120个观测值。 我已经阅读过Shumway和Stoffer的时间序列分析及其应用中的SARIMA'a以及略过的Woodward等。等人的《应用时间序列分析》,我的理解是,每个模型都基于时间序列中每个点的一次观察。 问题:如何在模型的每个观测值中包括变化?我可以在均值的基础上建立一个序列,但我会放宽每次观察的差异,我认为这对于我了解正在发生的事情至关重要。
11 r  time-series 

1
增量IDF(反向文档频率)
在文本挖掘应用程序,一个简单的方法是使用启发式创建载体作为文件的紧凑稀疏表示。这对于批处理设置很好,因为整个主体被称为先验,因为i d f要求整个主体Ť ˚F- 我dFtf−idftf-idf我dFidfidf 我d ˚F(t )= 对数| D || {d:吨∈ d} |idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} 其中是术语,d是文档,D是文档语料库,而T(未显示)是字典。ŤttddddDDŤTT 但是,通常随着时间的推移会收到新的文档。一种选择是使用现有的,以保持,直到已经收到新的文件一定数量,并且重新计算。但是,这似乎效率很低。如果有人事先查看了所有数据,是否有人知道增量更新方案(可能近似)收敛到该值?或者,是否有另一种方法可以捕获相同的概念,但是可以以增量方式计算?我dFidfidf 还有一个相关的问题,随着时间的流逝,i d f是否仍然是一个好的度量。由于idf捕获了语料词频率的概念,因此可以想象,语料库中较旧的文档(例如,我的语料库包括100多年的期刊文章),因为不同词的频率随时间变化。在这种情况下,实际上是明智的做法是,在使用新的滑动窗口i d f时,将新的文档丢掉。可以想象,当计算出新的矢量时,也可以存储所有以前的i d f矢量,然后,如果我们想检索1920-1930年的文档,则可以使用i d f我dFidfidf我dFidfidf我dFidfidf我dFidfidf根据该日期范围内的文档计算得出。这种方法有意义吗? 编辑:关于字典有一个单独的但相关的问题。随着时间的流逝,将会出现以前没有出现过的新词典术语,因此| T | 将需要增长,因此i d f向量的长度。似乎不会有问题,因为可以将零添加到旧的i d f向量上。ŤTT| Ť||T||T|我dFidfidf我dFidfidf


1
时间序列差异的置信区间
我有一个用于模拟某些过程的时间序列的随机模型。我对将一个参数更改为特定值的效果感兴趣,并希望显示时间序列(例如模型A和模型B)与某种基于仿真的置信区间之间的差异。 我一直在简单地运行来自模型A的一堆模拟和来自模型B的一堆模拟,然后在每个时间点减去中值以找到整个时间的中值差。我使用相同的方法来找到2.5和97.5分位数。这似乎是一种非常保守的方法,因为我没有共同考虑每个时间序列(例如,每个点在以前和将来都被认为独立于所有其他时间点)。 有一个更好的方法吗?


1
预测长进程
我用双态处理工作在为XŤXŤx_t{ 1 ,− 1 }{1个,-1个}\{1, -1\}吨= 1 ,2 ,...Ť=1个,2,…t = 1, 2, \ldots 自相关函数表示一个具有长内存的过程,即它显示幂律衰减为指数<1的幂律。 > library(fArma) > x<-fgnSim(10000,H=0.8) > x<-sign(x) > acf(x) 我的问题:仅给出自相关函数,是否有一种规范的方法可以最佳地预测序列中的下一个值?预测的一种方法就是简单地使用 X^(t )= x (t − 1 )X^(Ť)=X(Ť-1个)\hat{x}(t) = x(t-1) 的分类率为,其中是滞后1自相关,但我认为必须考虑长内存结构才能做得更好。(1 + ρ1个)/ 2(1个+ρ1个)/2(1 + \rho_1) / 2ρρ\rho

2
检测时间序列的变化
我遇到了一张应用程序原型的图片,该原型发现了交通数据中的重大变化(“趋势”,而不是峰值/离群值): 我想编写一个能够做到这一点的程序(Java,或者可选的R)-但是由于我的统计技能有点生锈,因此我需要再次深入探讨该主题。 因此,我应该使用/研究什么方法/算法?

3
多维时间序列的干预分析
我想进行一次干预分析,以量化关于一段时间内酒精销售的政策决定的结果。但是,我对时间序列分析还很陌生,所以我有一些初学者的问题。 对文献的检查表明,其他研究人员已使用ARIMA来模拟酒精的时间序列销售,并使用虚拟变量作为回归因子来模拟干预效果。尽管这似乎是一种合理的方法,但是我的数据集比文献中介绍的数据集要稍微丰富一些。首先,我的数据集按饮料类型(即啤酒,葡萄酒,烈酒)分类,然后再按地理区域分类。 虽然我可以为每个分类的组分别创建ARIMA分析,然后比较结果,但我怀疑这里有更好的方法。谁能更熟悉多维时间序列数据,有人可以提出建议或建议吗?

4
Facebook的先知与线性回归有什么不同吗?
因此,我对Facebook先知的了解是,它基本上将时间序列分解为趋势和季节性。例如,加性模型应写为: ÿ(t )= g(t )+ s (t )+ h (t )+ eŤÿ(Ť)=G(Ť)+s(Ť)+H(Ť)+ËŤ y(t) = g(t) + s(t) + h(t) + e_t 与 ŤŤt时间 G(吨)G(Ť)g(t)趋势(可以是线性或逻辑) s (吨)s(Ť)s(t)季节性(每天,每周,每年...) ħ (吨)H(Ť)h(t)假期 ËŤËŤe_t错误 我的问题是:不能通过简单的线性回归来完成吗?如果我们比较一下结果,结果会有什么不同?为什么?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
长短期记忆(LSTM)递归神经网络背后的直觉是什么?
循环神经网络(RNN)背后的想法对我很清楚。我以以下方式理解它:我们有一系列观察()(或换句话说,多元时间序列)。每个单个观测是一个维数值向量。在RNN模型中,我们假定下一个观测值是先前观测值以及先前的“隐藏状态”,其中隐藏状态也由数字表示向量(观察状态和隐藏状态的尺寸可以不同)。还假定隐藏状态本身取决于先前的观察和隐藏状态:o⃗ 1,o⃗ 2,…,o⃗ nØ→1个,Ø→2,…,Ø→ñ\vec o_1, \vec o_2, \dots, \vec o_no⃗ iØ→一世\vec o_iNñNo⃗ i+1Ø→一世+1个\vec o_{i+1}o⃗ iØ→一世\vec o_{i}h⃗ iH→一世\vec h_i Ø⃗ 一世,小时⃗ 一世= F(o⃗ i − 1,小时⃗ i − 1)Ø→一世,H→一世=F(Ø→一世-1个,H→一世-1个)\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1}) 最后,在RNN模型中,函数FFF被假定为神经网络。我们使用可用数据(观察序列)训练(拟合)神经网络。我们训练的目标是能够使用先前的观察结果尽可能准确地预测下一个观察结果。 现在,LSTM网络是对RNN网络的修改。据我了解,LSTM背后的动机是解决RNN特有的短存储问题(常规RNN在相关事件之间存在时间间隔过长的问题)。 我了解LSTM网络是如何工作的。这是我发现的LSTM的最佳解释。基本思想如下: 除了隐藏状态向量之外,我们还引入了一种所谓的“单元状态”向量,该向量具有与隐藏状态向量(C⃗ 一世C→一世\vec c_i)相同的大小(维数)。我认为引入了“细胞状态”向量来建模长期记忆。与常规RNN一样,LSTM网络将观察到的和隐藏的状态作为输入。使用此输入,我们可以通过以下方式计算新的“单元状态”: C⃗ 我+ 1= ω⃗ 1个(o⃗ 一世,小时⃗ 一世)⋅ …

2
为什么STL函数使用随机数据会产生明显的季节性变化
我使用stl(黄土时间序列的季节性分解)函数使用以下代码进行绘制: plot(stl(ts(rnorm(144), frequency=12), s.window="periodic")) 它显示了明显的季节性变化,上面的代码中放有随机数据(rnorm函数)。每次运行都会看到明显的变化,尽管模式是不同的。下面显示了两个这样的模式: 当显示季节性变化时,如何依靠stl函数处理某些数据。是否需要考虑其他一些参数来查看这种季节性变化?感谢您的见解。 代码摘自此页:这是测试自杀计数数据中季节性影响的适当方法吗?

2
为什么我们要从时间序列中删除季节性因素?
在处理时间序列时,有时我们会使用频谱分析来检测并消除季节性。我是时间序列的真正初学者,但我很困惑为什么要从原始时间序列中去除季节性?删除季节性因素是否会使原始数据失真? 通过消除季节性来构建时间序列,我们可以获得什么好处?

2
如果时间序列是二阶平稳的,这是否意味着它严格是平稳的?
如果X t 1,X t 2,...的联合分布,则过程XŤXŤX_t严格地是平稳的。。。,X t m与X t 1 + k,X t 2 + k,...的联合分布相同。。。,X t m + k对于所有m,对于所有k以及对于所有t 1,t 2,XŤ1个,XŤ2,。。。,XŤ米XŤ1个,XŤ2,。。。,XŤ米X_{t_1},X_{t_2},...,X_{t_m}XŤ1个+ k,XŤ2+ k,。。。,XŤ米+ kXŤ1个+ķ,XŤ2+ķ,。。。,XŤ米+ķX_{t_1+k},X_{t_2+k},...,X_{t_m+k}米米mķķk。Ť1个,Ť2,。。。,Ť米Ť1个,Ť2,。。。,Ť米t_1,t_2,...,t_m 如果过程的均值是常数且其自协方差函数仅取决于滞后,则该过程为二阶平稳过程。 因此二阶平稳意味着严格平稳吗? 同样在二阶平稳条件下,它说没有假设比一阶和二阶更高的力矩。第一个矩对应于均值,第二个矩对应于自协方差吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.