Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。



2
如何按时间序列填写缺失的数据?
我有大量的污染数据,在过去的2年中,每10分钟记录一次,但是数据中存在很多空白(其中一些空白一次出现几个星期)。 数据似乎确实是季节性的,与夜间相比,白天的变化很大,在夜间,值没有太大的变化,并且数据点较低。 我考虑过将黄土模型分别适合于白天和晚上的子集(因为它们之间存在明显的差异),然后预测缺失数据的值并将这些点填入。 我想知道这是否是解决此问题的合适方法,是否还需要在预测点中添加局部变化。

2
通过ACF和PACF检查估算ARMA系数
您如何通过目视检查ACF和PACF图来估计时间序列的适当预测模型?哪一个(即ACF或PACF)告诉AR或MA(或两者)?图表的哪一部分告诉您季节性ARIMA的季节性和非季节性部分? 考虑下面显示的ACF和PCF功能。它们来自经过两次对数转换的对数变换系列,一次是简单的差异,一个是季节性的(原始数据,对数变换的数据)。您如何表征该系列?哪种型号最合适?

2
使用带有ARIMA错误的回归进行推理的平稳性要求是什么?
使用带有ARIMA错误的回归(动态回归)进行推理的平稳性要求是什么? 具体来说,我有一个非平稳的连续结果变量,一个非平稳的连续预测变量和一个虚拟变量处理序列。我想知道治疗是否与结果变量的变化相关,该变化大于零变化之外的两个标准误差。ÿÿyX一种X一种x_aXbXbx_b 我不确定在使用ARIMA错误建模进行回归之前是否需要对这些序列进行差分处理。在回答另一个问题时,IrishStat指出的是while the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.,他然后继续补充说 unwarranted usage [of differencing] can create statistical/econometric nonsense。 该SAS用户指南表明,它是罚款,以适应回归模型ARIMA误差的非平稳序列无差分,只要残差非平稳: 请注意,平稳性要求适用于噪声序列。如果没有输入变量,则响应序列(在求和后减去平均值)和噪声序列相同。但是,如果有输入,则噪声序列是在消除输入影响后的残差。 不需要输入序列是固定的。如果输入是不稳定的,即使噪声过程可能是固定的,响应序列也将是不稳定的。 当使用非平稳输入序列时,可以在没有ARMA模型的情况下将输入变量拟合为误差,然后在确定噪声部分的ARMA模型之前考虑残差的平稳性。 另一方面,Rob Hyndman和George Athanasopoulos断言: 估计具有ARMA错误的回归的重要考虑因素是模型中的所有变量必须首先是平稳的。因此,我们首先必须检查yt和所有预测变量是否都固定。如果我们在其中任何一个都不平稳的情况下估计模型,则估计的系数可能是错误的。(x1 ,吨,… ,xķ ,吨)(X1个,Ť,…,Xķ,Ť)(x_{1,t},\dots,x_{k,t}) 一个例外是非平稳变量被共同积分的情况。如果在非平稳和预测变量之间存在线性组合,则估计的系数是正确的。ÿŤÿŤy_t 这些建议相互排斥吗?应用分析师如何进行?

3
将R预测包与缺失值和/或不规则时间序列一起使用
R forecast包以及zoo用于不规则时间序列和内插缺失值的包给我留下了深刻的印象。 我的应用程序是在呼叫中心流量预测方面,因此(几乎)总是缺少周末的数据,可以通过很好地处理zoo。此外,一些离散的点可能会丢失,我只是用的r NA为。 事实是:所有的预测包的漂亮的魔法,比如eta(),auto.arima()等等,似乎期望普通ts的物体,不包含任何丢失的数据,即等间隔的时间序列。我认为在现实世界中仅存在等时时间序列的应用确实存在,但是-我认为-非常有限。 几个离散的问题NA的值可容易地通过使用任何的提供内插函数来解决zoo,以及通过forecast::interp。之后,我运行了预测。 我的问题: 有人建议更好的解决方案吗? (我的主要问题)至少在我的应用程序域中,呼叫中心流量预测(据我所能想象的大多数其他问题域),时间序列不是等距的。至少我们有重复的“工作日”计划或类似的计划。什么是最好的处理方式,同时仍然使用预测包的所有酷魔术? 我是否应该“压缩”时间序列以填充周末,进行预测,然后再次“充气”数据以在周末重新插入NA值?(我认为这是一种耻辱吗?) 是否有计划使预测程序包与不定期的时间序列程序包(如Zoo或其兼容程序)完全兼容?如果是,何时和否,为什么不呢? 我对预测(以及一般的统计数据)还很陌生,所以我可能会忽略一些重要的事情。

6
如何在一系列数据中找到局部峰/谷?
这是我的实验: 我正在使用quantmod包中的findPeaks函数: 我想在公差5内检测“局部”峰,即时间序列从局部峰下降5以后的第一个位置: aa=100:1 bb=sin(aa/3) cc=aa*bb plot(cc, type="l") p=findPeaks(cc, 5) points(p, cc[p]) p 输出是 [1] 3 22 41 这似乎是错误的,因为我预计“本地高峰”会超过3个... 有什么想法吗?
16 r  time-series 

3
在财务时间序列中进行可靠的异常值检测
我正在寻找一些健壮的技术,以从财务时间序列数据(即tickdata)中删除异常值和错误(无论原因如何)。 逐笔的财务时间序列数据非常混乱。当交易所关闭时,它包含巨大的(时间)差距,而当交易所再次打开时,则存在巨大的跳跃。当交易所开放时,各种因素都会以错误的价格水平(没有发生)和/或不能代表市场的价格(例如,由于错误地输入了买入或卖出价而导致价格飙升)引入了交易。tickdata.com(PDF)撰写的这篇论文很好地概述了问题,但提供了一些具体的解决方案。 我在网上可以找到的大多数论文都提到了此问题,或者忽略了该问题(假定报价数据已被过滤),或者将该过滤作为某种庞大的交易模型的一部分,该模型隐藏了任何有用的过滤步骤。 有谁知道在这方面做更深入的工作? 更新: 这个问题表面上看起来很相似,但是: 财务时间序列是非周期性的(至少在刻度级别上)。 开放效果是一个大问题,因为即使您真的愿意(因为否则您一无所有),您也不能简单地将最后一天的数据用作初始化。外部事件可能导致新的一天的开盘价在绝对水平和波动性上都与前一天大相径庭。 传入数据的频率异常不规则。在一天中几乎每天打开和关闭时,每秒数据点的数量可能是一天中平均值的10倍。另一个问题涉及定期采样的数据。 金融数据中的“异常值”表现出一些特定的模式,可以使用不适用于其他领域的特定技术来检测这些模式,而我(在某种程度上)正在寻找这些特定技术。 在更极端的情况下(例如闪存崩溃),在更长的时间间隔(> 10分钟)内,异常值可能占数据的75%以上。另外,传入数据的(高)频率包含有关情况异常方面的一些信息。

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
BSTS模型(在R中)的预测完全失败
在阅读了有关贝叶斯结构时间序列模型的博客文章之后,我想看看在以前使用ARIMA的问题的背景下实现这一点。 我有一些已知的(但嘈杂的)季节性因素的数据-肯定有年度,每月和每周的因素,还有由于特殊日子(例如联邦或宗教假期)而产生的影响。 我使用了该bsts包来实现此目的,据我所知,我并没有做错任何事情,尽管组件和预测看起来并不像我期望的那样。我不清楚我的实现是否错误,不完整或存在其他问题。 全时系列如下所示: 我可以在数据的某些子集上训练模型,并且模型通常在拟合方面看起来不错(图如下)。我用来执行此操作的代码在这里: library(bsts) predict_length = 90 training_cut_date <- '2015-05-01' test_cut_date <- as.Date(training_cut_date) + predict_length df = read.csv('input.tsv', sep ='\t') df$date <- as.Date(as.character(df$date),format="%Y-%m-%d") df_train = df[df$date < training_cut_date,] yts <- xts(log10(df_train$count), order.by=df_train$date) ss <- AddLocalLinearTrend(list(), yts) ss <- AddSeasonal(ss, yts, nseasons = 7) ss <- AddSeasonal(ss, yts, nseasons …
15 r  time-series  bayesian  mcmc  bsts 

1
ARIMA模型的正则化
我知道线性回归模型中的LASSO,山脊和弹性网正则化类型。 题: 可以将这种(或类似的)惩罚估计应用于ARIMA建模(具有非空MA部分)吗? pmaxpmaxp_{max}qmaxqmaxq_{max} q ⩽ q 米一个Xp⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 我的其他问题是: 我们是否可以包括(,)之前的所有项,但是会惩罚系数的大小(可能一直到零)?那有道理吗? q 中号一个Xpmaxpmaxp_{max}qmaxqmaXq_{max} 如果可以,是否已在R或其他软件中实现?如果没有,那是什么麻烦? 一些相关的帖子可以在这里找到。

1
如何实现严格的积极预测?
我正在研究一个值严格为正的时间序列。使用包括AR,MA,ARMA等在内的各种模型,我找不到简单的方法来获得严格的积极预测。 我正在使用R进行预测,我所能找到的是带有以下描述的正参数的Forecast.hts {hts} : 预测分级或分组时间序列,包hts ## S3 method for class 'gts': forecast((object, h, method = c("comb", "bu", "mo", "tdgsf", "tdgsa", "tdfp", "all"), fmethod = c("ets", "rw", "arima"), level, positive = FALSE, xreg = NULL, newxreg = NULL, ...)) positive If TRUE, forecasts are forced to be strictly positive http://www.inside-r.org/packages/cran/hts/docs/forecast.gts 对于非分层时间序列有什么建议吗?关于使用其他约束(例如最小值,最大值等)的概括又如何呢? …

2
手工进行ARIMA估算
我试图了解如何在ARIMA建模/ Box Jenkins(BJ)中估算参数。不幸的是,我所遇到的书都没有详细描述估计程序,例如对数似然估计程序。我发现该网站/教学材料非常有帮助。以下是来自上面引用的来源的公式。 L L (θ )= − n2日志(2 π)− n2日志(σ2)- Σt = 1ñË2Ť2个σ2大号大号(θ)=-ñ2日志⁡(2π)-ñ2日志⁡(σ2)-∑Ť=1个ñËŤ22σ2 LL(\theta)=-\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \sum\limits_{t=1}^n\frac{e_t^2}{2\sigma^2} 我想自己学习ARIMA / BJ估计。因此,我使用编写了用于手工估算ARMA的代码。下面是我在做,[R[R[RR[R[RR 我模拟了ARMA(1,1) 将上面的方程写成函数 使用模拟数据和优化函数来估计AR和MA参数。 我还在stats软件包中运行ARIMA,并通过手工比较了ARMA参数。 比较如下: **以下是我的问题: 为什么估计变量和计算变量之间存在细微差异? ARIMA是否在R反向广播中起作用,或者估算程序与我的代码中以下概述的有所不同? 我已将观测值1的e1或错误指定为0,这是正确的吗? 还有没有一种方法可以使用优化的粗略估计来估计预测的置信范围? 一如既往的感谢您的帮助。 下面是代码: ## Load Packages library(stats) library(forecast) set.seed(456) ## Simulate Arima y <- arima.sim(n = 250, list(ar = …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.