Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

2
如何确定时间序列的可预测性?
预报员面临的重要问题之一是给定的序列是否 可以预报? 我偶然发现了彼得·卡特(Peter Catt)题为“ 熵作为可预测性的先验指标 ”的文章,该文章使用近似熵(ApEn) 作为确定给定时间序列的相对度量是可预测的。 文章说, “较小的ApEn值表示一组数据后面将跟随相似数据的可能性较大(规则性)。相反,较大的ApEn值表示重复相似数据的可能性较小(规则性)。因此,较大的ApEn值会带来更多混乱,随机性和系统复杂性。” 然后是用于计算ApEn的数学公式。这是一个有趣的方法,因为它提供了一个可用于相对意义上评估可预测性的数值。我不知道“近似熵”的含义,我正在阅读有关它的更多内容。 有一个叫包pracma中R,可以让你计算近似熵。为了说明目的,我使用了3个不同的时间序列并计算了ApEn数。 系列1:著名的AirPassenger时间序列-具有高度确定性,我们应该能够轻松进行预测。 系列2:黑子时间序列-定义明确,但比系列1更难预测。 系列3:随机数无法预测此系列。 因此,如果我们计算ApEn,则系列1应该小于系列2,而系列3应该非常非常少。 以下是为所有三个系列计算ApEn的R代码段。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 这不是我所期望的。随机序列的数目比定义明确的AirPassenger序列的数目要少。即使将随机数增加到100,我仍然得到以下值,该值小于定义明确的2 / Sunspot.yealry系列。 > series3 <- approx_entropy(rnorm(1:100)) > series3 …


2
干预与差异
例如,如此处讨论的那样,当使用时间序列数据(也称为“中断时间序列”)进行干预分析时,我的一项要求是估算由于干预导致的总收益(或损失),即获得或损失的单位数(Y变量) )。 我不完全了解如何使用R中的过滤器函数来估计干预函数,而是以蛮力的方式进行了研究,希望它能够在任何情况下都能通用。 假设给定数据 cds<- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim = c(29L, 1L), .Dimnames = list( NULL, "CD"), .Tsp = c(2012, 2014.33333333333, 12), class = …

2
双向方差分析是否合适?
这是我的研究的描述。我正在试验三种植物:A,B和C。这些植物被认为可以降低糖尿病患者的血糖。我想确定这三种植物中的哪一种对小鼠单次给药后对降低血糖的影响更长。这是通过在7个时间点(第1、2、3、5、7、10和14天)测量小鼠的血糖来完成的。因此,有4组(未处理,A处理,B处理和C处理)。对于每组,使用3只小鼠(n = 3)。我的目标是: 为了确定每种植物处理的效果与未处理相比是否显着。 比较各组之间每天的效果。 为了确定哪个治疗组在14天后效果最长。 我的解决方案是使用双向ANOVA,因为有两个以上的组,并且我想每天比较各组,最后比较总体效果。 这是正确的方法吗?我能否排名第二和第三最好的工厂?还是应该使用时间序列分析?

3
密度函数的预测
我正在做一些有关预测概率密度函数的时间序列的研究。我们的目标是根据历史观察到的(通常是估计的)PDF来预测PDF。我们正在开发的预测方法在模拟研究中表现良好。 但是,我需要一个来自实际应用的数值示例来进一步说明我们的方法。因此,在应用程序(金融,经济学,生物学,工程学等)中是否有适当的示例,这些示例收集了PDF的时间序列,并且预测这样一个时间序列既重要又难于预测?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


3
如何交互查看大时间序列数据?
我经常处理合理数量的时间序列数据,将50-200百万的倍数与相关的时间戳关联起来,并希望对其进行动态可视化。 是否有现有软件可以有效地做到这一点?库和数据格式如何?缩放缓存是图书馆关注大型时间序列的一个示例。在“缩放缓存”中,数据以几种分辨率汇总,以便更轻松地查看不同分辨率的数据。 编辑:另外,如果还有其他地方我应该问这个问题或寻求答案,请告诉我。

2
用ACF和PACF解释季节性
我有一个数据集,凭经验凭直觉说我应该期望每周都有季节性(即星期六和星期日的行为不同于一周的其余时间)。这个前提是否正确,自相关图是否应该让我以7的倍数倍数出现猝发? 这是数据示例: data = TemporalData[{{{2012, 09, 28}, 19160768}, {{2012, 09, 19}, 19607936}, {{2012, 09, 08}, 7867456}, {{2012, 09, 15}, 11245024}, {{2012, 09, 04}, 0}, {{2012, 09, 21}, 24314496}, {{2012, 09, 12}, 11233632}, {{2012, 09, 03}, 9886496}, {{2012, 09, 09}, 9122272}, {{2012, 09, 24}, 23103456}, {{2012, 09, 20}, 25721472}, {{2012, 09, …

1
相关随机变量加权和的“中心极限定理”
我正在读一篇声称 X^ķ= 1ñ--√∑j = 0ñ− 1XĴË- 我2 πk j / N,X^ķ=1个ñ∑Ĵ=0ñ-1个XĴË-一世2πķĴ/ñ,\hat{X}_k=\frac{1}{\sqrt{N}}\sum_{j=0}^{N-1}X_je^{-i2\pi kj/N}, (即离散傅立叶变换(DFT)表示CLT趋向于(复杂)高斯随机变量。但是,我知道通常情况并非如此。在阅读了这个(谬误的)论点之后,我在网上搜索并找到了Peligrad&Wu的2010年论文,他们证明对于某些平稳过程,人们可以找到“ CLT定理”。 我的问题是:您是否还有其他参考文献试图解决找到给定索引序列的DFT的极限分布(无论是通过模拟还是从理论上)的问题?给定在时间序列分析或非平稳序列的派生/应用中的某些协方差结构,我对收敛速度(即DFT收敛的速度)特别感兴趣。XĴXĴX_j

3
如何用时变偏差建模偏差硬币?
偏向硬币模型通常具有一个参数。从一系列平局中估计一种方法是使用Beta先验并以二项式似然计算后验分布。θθ=P(Head|θ)θ=P(Head|θ)\theta = P(\text{Head} | \theta)θθ\theta 在我的环境中,由于一些奇怪的物理过程,我的硬币特性正在缓慢变化,成为时间的函数。我的数据是一组有序抽奖,即。我可以认为我在离散且规则的时间网格上每仅获得一个抽奖。吨{ ħ ,Ť ,ħ ,ħ ,ħ ,Ť ,。。。} tθθ\thetattt{H,T,H,H,H,T,...}{H,T,H,H,H,T,...}\{H,T,H,H,H,T,...\}ttt 您将如何建模?我正在考虑类似卡尔曼滤波器的事情,以适应隐藏变量为并保持二项式可能性的事实。我可以使用什么来建模P(\ theta(t + 1)| \ theta(t))以保持推理的可操纵性?P (θ (吨+ 1 )| θ (吨))θθ\thetaP(θ(t+1)|θ(t))P(θ(t+1)|θ(t))P(\theta(t+1)|\theta(t)) 编辑以下答案(谢谢!):我想将\ theta(t)建模θ(t)θ(t)\theta(t)为1级马尔可夫链,就像在HMM或Kalman滤波器中所做的那样。我可以做出的唯一假设是θ(t)θ(t)\theta(t)是平滑的。我可以将P(θ(t+1)|θ(t))=θ(t)+ϵP(θ(t+1)|θ(t))=θ(t)+ϵP(\theta(t+1)|\theta(t)) = \theta(t) + \epsilon与\ epsilon一起写成ϵϵ\epsilon一个小高斯噪声(卡尔曼滤波器的思想),但这会破坏\ theta的要求θθ\theta必须保留在[0,1][0,1][0,1]。遵循@J Dav的想法,我可以使用probit函数将实线映射到[0,1][0,1][0,1],但是我有直觉,这将提供非分析性的解决方案。均值\ theta(t)的 beta分布θ(t)θ(t)\theta(t) 而更大的差异可以解决问题。 我问这个问题是因为我觉得这个问题是如此简单,以至于必须先进行研究。

1
异步(不规则)时间序列分析
我正在尝试分析两个股票价格的时间序列之间的提前期。在定期的时间序列分析中,我们可以进行VECM(格兰杰因果关系)的Cross Correlaton。但是,如何在不规则间隔的时间序列中处理相同的内容。 假设是其中一种工具领先于另一种。 我的两个符号的数据都以微秒为单位。 我查看了RTAQ软件包,并尝试应用VECM。RTAQ在单变量时间序列上更多,而VECM在这些时间尺度上不重要。 > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), class = c("POSIXct", "POSIXt"), tzone = ""), class = "zoo")

1
鼠标(或键盘)点击的模式并预测计算机用户的活动
仅基于鼠标单击的时间模式(单击时间),可以预测计算机用户的活动吗?[ Ť1个,Ť2,Ť3,… ][Ť1个,Ť2,Ť3,…][t_1,t_2,t_3,\ldots] 例如,工作:在Facebook上花费时间,在照片上观看照片,在电脑上玩游戏。 如果他们有更详尽的预测(例如玩《星际争霸》,《反恐精英》和《模拟城市》),那么我也很感兴趣。 虽然(可以说)有人听到有人在玩(由于快速而突然的点击)或正在观看照片(等间隔的点击),但我对此是否还有客观的发现(出版物,博客研究等)感兴趣, 。 编辑: 我同样对键盘单击(不区分正在敲击哪个键)或组合方法(鼠标+键盘)感兴趣。

2
串行相关和具有单位根之间有什么区别?
我可能会混淆时间序列概念和非时间序列概念,但是显示序列相关性的回归模型与显示单位根的模型之间有什么区别? 另外,为什么可以使用Durbin-Watson测试来测试串行相关性,却必须对单元根使用Dickey-Fuller测试呢?(我的教科书说这是因为Durbun Watson检验不能用于包含自变量滞后的模型。)

3
如何使用统计显着性比较两个不同模型的准确性
我正在研究时间序列预测。我有两个数据集和。我有三个预测模型:。使用数据集样本训练所有这些模型,并使用数据集的样本测量其性能。假设性能指标是MSE(或其他任何指标)。在针对数据集进行测量时,这些模型的MSE为和。如何测试一种模型相对于另一种模型的改进具有统计学意义。D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 例如,假设,,,并且基于数据集计算这些MSE 的样本总数为2000。如何测试,和有显着差异。如果有人可以帮助我解决这个问题,我将不胜感激。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.