Questions tagged «forecasting»

未来事件的预测。在[时间序列]的上下文中,这是[预测]的特例。

5
“样本内”和“样本外”预测之间有何区别?
我不了解“样本内”和“样本外”预测的确切区别是什么?样本内预测利用可用数据的子集来预测估计周期以外的值。样本超出预测将使用所有可用数据, 这些正确吗? 具体来说,以下定义正确吗? 样本内预测利用可用数据的子集来预测估计周期以外的值,并将它们与相应的已知或实际结果进行比较。这样做是为了评估模型预测已知值的能力。例如,1980年至2015年的样本内预测可能会使用1980年至2012年的数据来估计模型。然后,使用此模型,预测员将预测2013-2015年的值,并将预测值与实际已知值进行比较。反之,样本外预测将使用样本中的所有可用数据来估计模型。对于前面的示例,估计将在1980-2015年进行,而预测将在2016年开始。


3
ETS()函数,如何避免与历史数据不一致的预测?
我正在研究R中的alogorithm,以使每月预测计算自动化。除其他外,我正在使用预报包中的ets()函数来计算预报。运行良好。 不幸的是,对于某些特定的时间序列,我得到的结果很奇怪。 请在下面找到我正在使用的代码: train_ts<- ts(values, frequency=12) fit2<-ets(train_ts, model="ZZZ", damped=TRUE, alpha=NULL, beta=NULL, gamma=NULL, phi=NULL, additive.only=FALSE, lambda=TRUE, lower=c(0.0001,0.0001,0.0001,0.8),upper=c(0.9999,0.9999,0.9999,0.98), opt.crit=c("lik","amse","mse","sigma","mae"), nmse=3, bounds=c("both","usual","admissible"), ic=c("aicc","aic","bic"), restrict=TRUE) ets <- forecast(fit2,h=forecasthorizon,method ='ets') 请在下面的相关历史数据集下面找到: values <- c(27, 27, 7, 24, 39, 40, 24, 45, 36, 37, 31, 47, 16, 24, 6, 21, 35, 36, 21, 40, 32, 33, …

2
时间序列预测中的随机与确定性趋势/季节关系
我在时间序列预测方面有中等背景。我看了几本预测书,但在其中任何一本中都没有看到以下问题。 我有两个问题: 如果给定的时间序列具有以下特征,我将如何客观地确定(通过统计检验): 随机季节性或确定性季节性 随机趋势或确定性趋势 如果当时间序列具有明显的随机成分时,将我的时间序列建模为确定性趋势/季节,将会发生什么? 解决这些问题的任何帮助将不胜感激。 趋势的示例数据: 7,657 5,451 10,883 9,554 9,519 10,047 10,663 10,864 11,447 12,710 15,169 16,205 14,507 15,400 16,800 19,000 20,198 18,573 19,375 21,032 23,250 25,219 28,549 29,759 28,262 28,506 33,885 34,776 35,347 34,628 33,043 30,214 31,013 31,496 34,115 33,433 34,198 35,863 37,789 34,561 36,434 34,371 …

1
R中的多元时间序列。如何找到滞后相关性并建立预测模型
我是该页面的新手,而统计学和R则是新手。我正在为一个大学项目,目的是发现河流中的雨水和水位之间的相关性。一旦证明了相关性,我便要对其进行预测/预测。 数据 我有一组数年的数据(每隔5分钟)包含特定的河流: 毫米降水 河流流量,立方米每秒 这条河没有积雪,因此该模型仅基于降雨和时间。有时会有冻结的温度,但是我正在考虑将这些时间段从异常数据中删除,因为这种情况超出了我项目的范围。 示例 在这里,您有几个示例数据图,这些数据来自几个小时后的降雨和水位上升。 红线是河流流量。橙色是雨。您可以看到总是下雨,然后河里的水上升。在时间序列结束时会再次下雨,但稍后会影响河流流量。 相关性在那里。这是我在R中所做的,以证明在R中使用ccf的相关性: 互相关 前导变量 滞后 这是我的R线用于第二个示例(一个降雨期): ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 我的解释是: 降雨导致(首先发生), 有一个显着的相关性,其峰值为(我可以检查确切的数字,我知道该部分)。≈ 450≈450\approx 450 我不知道如何找出相关性影响河流流量的时间,我认为这个名称是“保留”。我看到的是,雨后河水流失时,该图遵循第一个图的相同形状。我不能以此为依据说保留时间从持续到(我可以在返回的数据框中创建的对象中检查此值,看看水位何时恢复到该值)。是“下雨前”吗?有没有更好的方法来找到保留物?≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 我对吗? 关于时间序列。此时间序列没有周期性或季节性。随时可能下雨并造成影响。夏季确实会减少,但仍然会发生,这是一个常年下雨的地区。 模型和预测。 我不知道如何创建一个模型来进行预测,该预测告诉我在下雨后河流会增加多少流量。我一直在尝试一些arima,auto arima但是还没有很成功。我应该使用Arima,vars或其他不同的多变量模型?任何指向示例的链接都会有很大帮助。 请让我知道,如果您知道创建此预测的最佳方法,则应使用哪种模型。我正在考虑做其他一些事情,但是为了简单起见,将它们从解释中删除。如果需要,我可以共享一些数据。

1
定义ARIMA订单时遇到问题
这是一篇很长的文章,所以希望您能忍受,并请纠正我错的地方。 我的目标是根据3或4周的历史数据生成每日预测。 该数据是变压器线路之一的局部负载的15分钟数据。我在查找季节性ARIMA过程的模型顺序时遇到麻烦。考虑用电时间序列: 原始时间序列http://i.share.pho.to/80d86574_l.png 当将前三周作为子集并进行差分时,将计算以下ACF / PACF图: 子集http://i.share.pho.to/5c165aef_l.png 第一个区别http://i.share.pho.to/b7300cc2_l.png 季节性和第一次差异http://i.share.pho.to/570c5397_l.png 看起来该系列有点固定。但是季节性也可以是每周一次(请参阅季节性差异周和二阶差异[在这里] http://share.pho.to/3owoq,您怎么看?) 一[R 我中号A (p ,1 ,q)(P,1 ,Q )96一种[R一世中号一种(p,1个,q)(P,1个,问)96 ARIMA(p,1,q)(P,1,Q)_{96} 一[R 我中号甲(0 ,1 ,4 )(0 ,1 ,1 )96一种[R一世中号一种(0,1个,4)(0,1个,1个)96 ARIMA(0,1,4)(0,1,1)_{96} Series: x ARIMA(0,1,4)(0,1,1)[96] Coefficients: ma1 ma2 ma3 ma4 sma1 -0.2187 -0.2233 -0.0996 -0.0983 -0.9796 s.e. 0.0231 0.0234 0.0257 0.0251 0.0804 sigma^2 …

1
预测短时间序列的最小愚蠢方法
我需要为第29个时间单位预测以下4个变量。我有大约2年的历史数据,其中1和14和27都是同一时期(或一年中的某个时间)。最后,我对w ^w ^W,w ^ dwdwd,w çwCwc和进行了Oaxaca-Blinder风格的分解ppp。 time W wd wc p 1 4.920725 4.684342 4.065288 .5962985 2 4.956172 4.73998 4.092179 .6151785 3 4.85532 4.725982 4.002519 .6028712 4 4.754887 4.674568 3.988028 .5943888 5 4.862039 4.758899 4.045568 .5925704 6 5.039032 4.791101 4.071131 .590314 7 4.612594 4.656253 4.136271 .529247 8 4.722339 4.631588 3.994956 …


2
通过ACF和PACF检查估算ARMA系数
您如何通过目视检查ACF和PACF图来估计时间序列的适当预测模型?哪一个(即ACF或PACF)告诉AR或MA(或两者)?图表的哪一部分告诉您季节性ARIMA的季节性和非季节性部分? 考虑下面显示的ACF和PCF功能。它们来自经过两次对数转换的对数变换系列,一次是简单的差异,一个是季节性的(原始数据,对数变换的数据)。您如何表征该系列?哪种型号最合适?

3
将R预测包与缺失值和/或不规则时间序列一起使用
R forecast包以及zoo用于不规则时间序列和内插缺失值的包给我留下了深刻的印象。 我的应用程序是在呼叫中心流量预测方面,因此(几乎)总是缺少周末的数据,可以通过很好地处理zoo。此外,一些离散的点可能会丢失,我只是用的r NA为。 事实是:所有的预测包的漂亮的魔法,比如eta(),auto.arima()等等,似乎期望普通ts的物体,不包含任何丢失的数据,即等间隔的时间序列。我认为在现实世界中仅存在等时时间序列的应用确实存在,但是-我认为-非常有限。 几个离散的问题NA的值可容易地通过使用任何的提供内插函数来解决zoo,以及通过forecast::interp。之后,我运行了预测。 我的问题: 有人建议更好的解决方案吗? (我的主要问题)至少在我的应用程序域中,呼叫中心流量预测(据我所能想象的大多数其他问题域),时间序列不是等距的。至少我们有重复的“工作日”计划或类似的计划。什么是最好的处理方式,同时仍然使用预测包的所有酷魔术? 我是否应该“压缩”时间序列以填充周末,进行预测,然后再次“充气”数据以在周末重新插入NA值?(我认为这是一种耻辱吗?) 是否有计划使预测程序包与不定期的时间序列程序包(如Zoo或其兼容程序)完全兼容?如果是,何时和否,为什么不呢? 我对预测(以及一般的统计数据)还很陌生,所以我可能会忽略一些重要的事情。

1
如何实现严格的积极预测?
我正在研究一个值严格为正的时间序列。使用包括AR,MA,ARMA等在内的各种模型,我找不到简单的方法来获得严格的积极预测。 我正在使用R进行预测,我所能找到的是带有以下描述的正参数的Forecast.hts {hts} : 预测分级或分组时间序列,包hts ## S3 method for class 'gts': forecast((object, h, method = c("comb", "bu", "mo", "tdgsf", "tdgsa", "tdfp", "all"), fmethod = c("ets", "rw", "arima"), level, positive = FALSE, xreg = NULL, newxreg = NULL, ...)) positive If TRUE, forecasts are forced to be strictly positive http://www.inside-r.org/packages/cran/hts/docs/forecast.gts 对于非分层时间序列有什么建议吗?关于使用其他约束(例如最小值,最大值等)的概括又如何呢? …

2
手工进行ARIMA估算
我试图了解如何在ARIMA建模/ Box Jenkins(BJ)中估算参数。不幸的是,我所遇到的书都没有详细描述估计程序,例如对数似然估计程序。我发现该网站/教学材料非常有帮助。以下是来自上面引用的来源的公式。 L L (θ )= − n2日志(2 π)− n2日志(σ2)- Σt = 1ñË2Ť2个σ2大号大号(θ)=-ñ2日志⁡(2π)-ñ2日志⁡(σ2)-∑Ť=1个ñËŤ22σ2 LL(\theta)=-\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \sum\limits_{t=1}^n\frac{e_t^2}{2\sigma^2} 我想自己学习ARIMA / BJ估计。因此,我使用编写了用于手工估算ARMA的代码。下面是我在做,[R[R[RR[R[RR 我模拟了ARMA(1,1) 将上面的方程写成函数 使用模拟数据和优化函数来估计AR和MA参数。 我还在stats软件包中运行ARIMA,并通过手工比较了ARMA参数。 比较如下: **以下是我的问题: 为什么估计变量和计算变量之间存在细微差异? ARIMA是否在R反向广播中起作用,或者估算程序与我的代码中以下概述的有所不同? 我已将观测值1的e1或错误指定为0,这是正确的吗? 还有没有一种方法可以使用优化的粗略估计来估计预测的置信范围? 一如既往的感谢您的帮助。 下面是代码: ## Load Packages library(stats) library(forecast) set.seed(456) ## Simulate Arima y <- arima.sim(n = 250, list(ar = …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
每日数据的时间序列预测:带回归的ARIMA
我使用的是每日时间序列的销售数据,其中包含大约2年的每日数据点。根据一些在线教程/示例,我试图确定数据的季节性。似乎有一个每周一次,每月一次,可能还有每年一次的周期性/季节性。 例如,有发薪日,尤其是在该月中的第1个发薪日,该发炎日在一周中持续几天。还有一些特定的假日效应,通过观察观察可以清楚地识别出来。 配备了一些观察结果之后,我尝试了以下操作: ARIMA(带有R-forecast包Arima和auto.arima来自R-forecast包),使用回归器(以及函数中需要的其他默认值)。我创建的回归器基本上是一个0/1值的矩阵: 11个月(n-1)个变量 12个假期变量 无法计算发薪日部分...因为它的影响比我想象的要复杂得多。发薪日效应的工作方式有所不同,具体取决于每月1日的工作日。 我使用7(即每周频率)对时间序列进行建模。我尝试了该测试-一次预测7天。结果是合理的:预测11周的平均准确度平均每周RMSE为5%。 TBATS模型(来自R-forecast包)-使用多个季节性(7,30.4375,365.25),并且显然没有回归。在每周平均RMSE 3.5%的情况下,准确性出乎意料地优于ARIMA模型。 在这种情况下,没有ARMA错误的模型的性能会稍好一些。现在,如果我仅将#1中所述的ARIMA模型的假日效应系数应用于TBATS模型的结果,则每周平均RMSE改善为2.95% 现在,在对这些模型的基础理论没有足够的背景知识或知识的情况下,我感到困惑的是,这种TBATS方法是否有效。尽管它在11周的测试中显着提高了RMSE,但我想知道它将来是否可以保持这种准确性。甚至将ARIMA的假日效果应用于TBATS结果是合理的。任何/所有贡献者的任何想法都将受到高度赞赏。 测试数据链接 注意:执行“将链接另存为”以下载文件。

3
为什么要使用某种预测误差度量(例如MAD),而不是另一种度量度量(例如MSE)?
MAD =平均绝对偏差MSE =均方误差 我已经从各个地方看到了建议,尽管使用了MSE,但仍存在一些不良质量(例如http://www.stat.nus.edu.sg/~staxyc/T12.pdf,其在第8页上指出:“人们普遍认为MAD是比MSE更好的标准。但是,从数学上讲,MSE比MAD更方便。“) 除此之外,还有什么呢?是否有一篇论文彻底分析了各种测量预测误差的方法是否合适的情况?我的Google搜索未显示任何内容。 在/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde中询问了与此类似的问题,并要求用户张贴在stats.stackexchange.com上,但我认为他们从未这样做过。
15 forecasting  error  mse  mae 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.