Questions tagged «forecasting»

未来事件的预测。在[时间序列]的上下文中,这是[预测]的特例。

3
如何选择最佳指标来测量校准?
我编程并进行测试驱动的开发。在更改代码后,我将运行测试。有时他们成功,有时他们失败。在我运行测试之前,我写下一个从0.01到0.99的数字,以表示我相信测试会成功。 我想知道我在预测测试成功还是失败方面是否有所进步。如果我可以跟踪我是否更擅长预测测试在星期一还是星期五成功,那也将是很好的。我想知道,如果我预测测试成功的能力与我跟踪的其他指标相关。 剩下的工作就是选择正确的指标。在超级预测中,Philip Tetlock建议使用Brier分数来衡量专家的校准水平。文献中提出的另一种度量是对数评分规则。还有其他可能的候选人。 如何确定要使用的指标?是否有理由赞成一种计分规则而不是其他计分规则?


2
如何确定时间序列的可预测性?
预报员面临的重要问题之一是给定的序列是否 可以预报? 我偶然发现了彼得·卡特(Peter Catt)题为“ 熵作为可预测性的先验指标 ”的文章,该文章使用近似熵(ApEn) 作为确定给定时间序列的相对度量是可预测的。 文章说, “较小的ApEn值表示一组数据后面将跟随相似数据的可能性较大(规则性)。相反,较大的ApEn值表示重复相似数据的可能性较小(规则性)。因此,较大的ApEn值会带来更多混乱,随机性和系统复杂性。” 然后是用于计算ApEn的数学公式。这是一个有趣的方法,因为它提供了一个可用于相对意义上评估可预测性的数值。我不知道“近似熵”的含义,我正在阅读有关它的更多内容。 有一个叫包pracma中R,可以让你计算近似熵。为了说明目的,我使用了3个不同的时间序列并计算了ApEn数。 系列1:著名的AirPassenger时间序列-具有高度确定性,我们应该能够轻松进行预测。 系列2:黑子时间序列-定义明确,但比系列1更难预测。 系列3:随机数无法预测此系列。 因此,如果我们计算ApEn,则系列1应该小于系列2,而系列3应该非常非常少。 以下是为所有三个系列计算ApEn的R代码段。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 这不是我所期望的。随机序列的数目比定义明确的AirPassenger序列的数目要少。即使将随机数增加到100,我仍然得到以下值,该值小于定义明确的2 / Sunspot.yealry系列。 > series3 <- approx_entropy(rnorm(1:100)) > series3 …

4
使用神经网络,auto.arima和ets进行R时间序列预测
我听说过一些有关使用神经网络预测时间序列的信息。 如何比较哪种预测时间序列(每日零售数据)的方法更好:auto.arima(x),ets(x)或nnetar(x)。 我可以通过AIC或BIC将auto.arima与ets进行比较。但是如何将它们与神经网络进行比较? 例如: > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, 1864, 2088, 2084, 594, 884, 1968, 1858, 1640, 1823, 1938, 1490, 1312, 2312, 1937, 1617, 1643, 1468, …

3
密度函数的预测
我正在做一些有关预测概率密度函数的时间序列的研究。我们的目标是根据历史观察到的(通常是估计的)PDF来预测PDF。我们正在开发的预测方法在模拟研究中表现良好。 但是,我需要一个来自实际应用的数值示例来进一步说明我们的方法。因此,在应用程序(金融,经济学,生物学,工程学等)中是否有适当的示例,这些示例收集了PDF的时间序列,并且预测这样一个时间序列既重要又难于预测?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
用ACF和PACF解释季节性
我有一个数据集,凭经验凭直觉说我应该期望每周都有季节性(即星期六和星期日的行为不同于一周的其余时间)。这个前提是否正确,自相关图是否应该让我以7的倍数倍数出现猝发? 这是数据示例: data = TemporalData[{{{2012, 09, 28}, 19160768}, {{2012, 09, 19}, 19607936}, {{2012, 09, 08}, 7867456}, {{2012, 09, 15}, 11245024}, {{2012, 09, 04}, 0}, {{2012, 09, 21}, 24314496}, {{2012, 09, 12}, 11233632}, {{2012, 09, 03}, 9886496}, {{2012, 09, 09}, 9122272}, {{2012, 09, 24}, 23103456}, {{2012, 09, 20}, 25721472}, {{2012, 09, …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
如何根据不定期的汇总数据进行预测?
我正在尝试预测自动售货机中产品的销售情况。问题在于,机器的灌装间隔不规则,每次灌装我们只能记录自机器最后一次灌装以来的累计销售额(即我们没有每日销售数据)。因此,基本上我们有不定期的汇总销售数据。间隔通常在2天到3周之间。这是一台自动售货机和一种产品的示例数据: 27/02/2012 48 17/02/2012 24 09/02/2012 16 02/02/2012 7 25/01/2012 12 16/01/2012 16 05/01/2012 16 23/12/2011 4 16/12/2011 14 09/12/2011 4 02/12/2011 2 我们当前的幼稚算法是通过将过去90天内的销售总量除以90来计算每天的平均销售额。 您是否知道如何改善每天的销售预测?我需要预测在下次访问机器时将出售什么。给定数据的性质,是否可以使用某种指数平滑算法? 提前致谢! 更新:非常感谢所有的答案和评论。让我尝试提供更多背景信息(问题背后的业务案例-当然非常简化)。我们有数百台自动售货机。每天我们都必须决定要访问其中的20个以进行补充。为此,我们试图预测计算机的当前状态,并选择“最空”的20台计算机。对于每台机器和产品,我们正在使用上述朴素算法计算每日平均销售量(SPD)。然后,将SPD乘以自上次填充机器以来的天数,结果就是预计的销售量。

8
给定过去购买的数据,可以使用哪种算法来预测耗材使用情况?
考虑到一个据说简单但有趣的问题,鉴于我以前的购买历史,我想写一些代码来预测我不久将需要的消耗品。我敢肯定,这类问题的定义更为通用且经过深入研究(有人建议这与ERP系统等中的某些概念有关)。 我拥有的数据是以前购买的完整历史记录。假设我正在查看纸张供应,我的数据看起来像(日期,纸张): 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 它不会定期进行“采样”,因此我认为它不符合时间序列数据的条件。 我每次都没有实际库存水平的数据。我想使用这种简单且有限的数据来预测在(例如)3、6、12个月中需要多少纸张。 到目前为止,我才知道我在寻找什么叫做外推法,而不是更多:) 在这种情况下可以使用什么算法? 如果与先前算法不同,哪种算法还可以利用更多的数据点来提供当前的供电水平(例如,如果我知道在XI的日期还剩Y张纸)? 如果您知道更好的术语,请随时编辑问题,标题和标签。 编辑:对于它的价值,我将尝试在python中进行编码。我知道有很多库可以实现或多或少的任何算法。在这个问题中,我想探索可以使用的概念和技术,并把实际的实现留给读者练习。

1
进行时间序列预测时的良好做法
我已经进行了几个月的短期负荷预测,并使用气候/天气数据来提高准确性。我具有计算机科学背景,因此,我尝试使用ARIMA模型之类的统计工具避免犯大错和不公平的比较。我想知道您对以下几点的看法: 我同时使用(S)ARIMA和(S)ARIMAX模型来研究天气数据对天气预报的影响,您认为是否还需要使用指数平滑方法? 从头两个星期开始,我有300个每日样本的时间序列,并使用auto.arima R函数(预测软件包)构建的模型进行了提前5天的预测。然后,将另一个样本添加到我的数据集中,然后再次校准模型,然后再进行5天的预测,依此类推,直到可用数据结束。您认为这种操作方式正确吗? 感谢您的建议,尽管我们的工作目标是发表在工程学期刊上的文章,但从统计的角度来看,我想做的尽可能严格。

3
通过平均数据点组合两个时间序列
我想通过最小化均方预测误差,将一个时间序列数据集的预测值和预测值(即过去的预测值)组合为一个时间序列。 假设我有一个2001-2010年的时间序列,与2007年之间有一个间隔。我已经能够使用2001-2007年数据(红线-称为YfYfY_f)来预测2007年,并能够使用2008-2009年数据进行反向预测(光蓝线-称为YbYbY_b)。 我想将YfYfY_f和的数据点合并为每个月的估算数据点Y_i。理想情况下,我希望获得权重,以使其最小化的均方预测误差(MSPE)。如果这不可能,那么我如何才能找到两个时间序列数据点之间的平均值? w ^ ÿ 我YbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 作为一个简单的例子: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 3 4 5 6 7 …

1
成功的实际应用中的计量经济学方法的书面/可复制示例?
这个问题听起来可能很广泛,但这就是我想要的。我知道有许多关于计量经济学方法的优秀书籍,以及关于计量经济学技术的许多出色的说明性文章。如此CrossValidated 问题中所述,甚至还有极好的可重复的计量经济学示例。实际上,此问题中的示例与我要寻找的非常接近;这些示例中唯一缺少的是它们仅是研究报告,而没有提及研究结果在实际应用中的表现。 我正在寻找的是计量经济学理论在现实世界中应用的已记录/可复制的示例,这些示例理想地具有以下特征: 它们应该是可重复的,即,包含的详细描述(并指针)的数据,计量技术,和代码。理想情况下,代码将使用R语言。 根据详细量化的成功指标,应该有详细的文档显示该技术在现实世界中取得了成功(例如“该技术有助于增加收入,因为它可以改善需求预测,这是其中涉及的数字”) 我在这里广泛使用“ 计量经济学 ”一词-我的意思是任何种类的数据挖掘,统计数据分析,预测,预测或机器学习技术。查找此类示例的一个直接问题是:计量经济学的许多成功应用都是在营利性环境中完成的,因此是专有的,因此,如果一项技术行之有效,则可能不会公开(特别是在专有交易的情况下)策略),但我仍然希望有一些已发布的示例至少具有上述属性(2),如果不是同时具有(1)和(2)。

3
汇总时间序列以使其看起来更有意义是否有效?
我还有另一个关于时间序列的问题。 我有一个数据集,可以提供三年内精神病医院的暴力事件的每日记录。在上一个问题的帮助下,我一直在摆弄它,现在对此感到高兴。 我现在要知道的是,每日系列非常嘈杂。它从0时到20时上下波动剧烈。使用黄土图和预测软件包(我可以为像我这样的新手强烈推荐),我得到一条完全平坦的线,且预测的置信区间很大。 但是,每周或每月汇总数据更有意义。它们从系列开始时就开始下降,然后在中间再次上升。黄土图和预测包都产生了看起来更有意义的东西。 确实感觉有点像作弊。我是不是更喜欢聚合版本,因为它们看起来不错,没有任何实际有效性? 还是计算移动平均值并以此为基础会更好?恐怕我对所有这些背后的理论还不够了解,无法对可以接受的东西充满信心

3
使用外部变量预测时间序列数据
目前,我正在一个项目中进行时间序列数据(每月数据)的预测。我正在使用R进行预测。我有1个因变量(y)和3个独立变量(x1,x2,x3)。y变量具有73个观测值,其他3个变量也具有观测值(alos 73)。从2009年1月到2015年1月。我检查了相关性和p值,将其放入模型中非常重要。我的问题是:如何使用所有自变量进行良好的预测?我没有这些变量的将来值。假设我想预测两年(2017年)后我的y变量。我怎样才能做到这一点? 我尝试了以下代码: model = arima(y, order(0,2,0), xreg = externaldata) 我可以使用此代码对两年内的y值进行预测吗? 我还尝试了回归代码: reg = lm(y ~ x1 + x2 + x3) 但是如何花时间在这段代码中?我如何预测我的y值将超过2年?我是统计和预测的新手。我已经进行了一些读取并查看了滞后值,但是如何在模型中使用滞后值进行预测呢? 实际上,我的总体问题是,如何使用没有未来价值的外部变量来预测时间序列数据?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.