统计和大数据 forecasting

3

我编程并进行测试驱动的开发。在更改代码后，我将运行测试。有时他们成功，有时他们失败。在我运行测试之前，我写下一个从0.01到0.99的数字，以表示我相信测试会成功。我想知道我在预测测试成功还是失败方面是否有所进步。如果我可以跟踪我是否更擅长预测测试在星期一还是星期五成功，那也将是很好的。我想知道，如果我预测测试成功的能力与我跟踪的其他指标相关。剩下的工作就是选择正确的指标。在超级预测中，Philip Tetlock建议使用Brier分数来衡量专家的校准水平。文献中提出的另一种度量是对数评分规则。还有其他可能的候选人。如何确定要使用的指标？是否有理由赞成一种计分规则而不是其他计分规则？

10 forecasting decision-theory calibration scoring-rules

1

为什么通过卡尔曼滤波器进行ARMA模型的预测

将ARMA模型表示为状态空间模型并使用卡尔曼滤波器进行预测有什么优势？例如，此方法用于python-statsmodels的SARIMAX实现： https://github.com/statsmodels/statsmodels/tree/master/statsmodels/tsa/statespace

10 forecasting arma kalman-filter state-space-models statsmodels

2

如何确定时间序列的可预测性？

预报员面临的重要问题之一是给定的序列是否可以预报？我偶然发现了彼得·卡特（Peter Catt）题为“ 熵作为可预测性的先验指标 ”的文章，该文章使用近似熵（ApEn）作为确定给定时间序列的相对度量是可预测的。文章说， “较小的ApEn值表示一组数据后面将跟随相似数据的可能性较大（规则性）。相反，较大的ApEn值表示重复相似数据的可能性较小（规则性）。因此，较大的ApEn值会带来更多混乱，随机性和系统复杂性。” 然后是用于计算ApEn的数学公式。这是一个有趣的方法，因为它提供了一个可用于相对意义上评估可预测性的数值。我不知道“近似熵”的含义，我正在阅读有关它的更多内容。有一个叫包pracma中R，可以让你计算近似熵。为了说明目的，我使用了3个不同的时间序列并计算了ApEn数。系列1：著名的AirPassenger时间序列-具有高度确定性，我们应该能够轻松进行预测。系列2：黑子时间序列-定义明确，但比系列1更难预测。系列3：随机数无法预测此系列。因此，如果我们计算ApEn，则系列1应该小于系列2，而系列3应该非常非常少。以下是为所有三个系列计算ApEn的R代码段。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 这不是我所期望的。随机序列的数目比定义明确的AirPassenger序列的数目要少。即使将随机数增加到100，我仍然得到以下值，该值小于定义明确的2 / Sunspot.yealry系列。 > series3 <- approx_entropy(rnorm(1:100)) > series3 …

10 time-series forecasting entropy maximum-entropy forecastability

4

使用神经网络，auto.arima和ets进行R时间序列预测

我听说过一些有关使用神经网络预测时间序列的信息。如何比较哪种预测时间序列（每日零售数据）的方法更好：auto.arima（x），ets（x）或nnetar（x）。我可以通过AIC或BIC将auto.arima与ets进行比较。但是如何将它们与神经网络进行比较？例如： > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, 1864, 2088, 2084, 594, 884, 1968, 1858, 1640, 1823, 1938, 1490, 1312, 2312, 1937, 1617, 1643, 1468, …

10 r neural-networks forecasting arima exponential-smoothing

3

密度函数的预测

我正在做一些有关预测概率密度函数的时间序列的研究。我们的目标是根据历史观察到的（通常是估计的）PDF来预测PDF。我们正在开发的预测方法在模拟研究中表现良好。但是，我需要一个来自实际应用的数值示例来进一步说明我们的方法。因此，在应用程序（金融，经济学，生物学，工程学等）中是否有适当的示例，这些示例收集了PDF的时间序列，并且预测这样一个时间序列既重要又难于预测？

10 time-series forecasting functional-data-analysis

1

如何在ARIMA模型的观察值48中加入创新的离群值？

我正在处理数据集。使用一些模型识别技术后，我得出了一个ARIMA（0,2,1）模型。我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值（IO）。如何将这个离群值合并到模型中，以便将其用于预测？我不想使用ARIMAX模型，因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗？以下是我的价值观： VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

用ACF和PACF解释季节性

我有一个数据集，凭经验凭直觉说我应该期望每周都有季节性（即星期六和星期日的行为不同于一周的其余时间）。这个前提是否正确，自相关图是否应该让我以7的倍数倍数出现猝发？这是数据示例： data = TemporalData[{{{2012, 09, 28}, 19160768}, {{2012, 09, 19}, 19607936}, {{2012, 09, 08}, 7867456}, {{2012, 09, 15}, 11245024}, {{2012, 09, 04}, 0}, {{2012, 09, 21}, 24314496}, {{2012, 09, 12}, 11233632}, {{2012, 09, 03}, 9886496}, {{2012, 09, 09}, 9122272}, {{2012, 09, 24}, 23103456}, {{2012, 09, 20}, 25721472}, {{2012, 09, …

10 time-series autocorrelation forecasting

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

如何根据不定期的汇总数据进行预测？

我正在尝试预测自动售货机中产品的销售情况。问题在于，机器的灌装间隔不规则，每次灌装我们只能记录自机器最后一次灌装以来的累计销售额（即我们没有每日销售数据）。因此，基本上我们有不定期的汇总销售数据。间隔通常在2天到3周之间。这是一台自动售货机和一种产品的示例数据： 27/02/2012 48 17/02/2012 24 09/02/2012 16 02/02/2012 7 25/01/2012 12 16/01/2012 16 05/01/2012 16 23/12/2011 4 16/12/2011 14 09/12/2011 4 02/12/2011 2 我们当前的幼稚算法是通过将过去90天内的销售总量除以90来计算每天的平均销售额。您是否知道如何改善每天的销售预测？我需要预测在下次访问机器时将出售什么。给定数据的性质，是否可以使用某种指数平滑算法？提前致谢！更新：非常感谢所有的答案和评论。让我尝试提供更多背景信息（问题背后的业务案例-当然非常简化）。我们有数百台自动售货机。每天我们都必须决定要访问其中的20个以进行补充。为此，我们试图预测计算机的当前状态，并选择“最空”的20台计算机。对于每台机器和产品，我们正在使用上述朴素算法计算每日平均销售量（SPD）。然后，将SPD乘以自上次填充机器以来的天数，结果就是预计的销售量。

10 time-series forecasting

8

给定过去购买的数据，可以使用哪种算法来预测耗材使用情况？

考虑到一个据说简单但有趣的问题，鉴于我以前的购买历史，我想写一些代码来预测我不久将需要的消耗品。我敢肯定，这类问题的定义更为通用且经过深入研究（有人建议这与ERP系统等中的某些概念有关）。我拥有的数据是以前购买的完整历史记录。假设我正在查看纸张供应，我的数据看起来像（日期，纸张）： 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 它不会定期进行“采样”，因此我认为它不符合时间序列数据的条件。我每次都没有实际库存水平的数据。我想使用这种简单且有限的数据来预测在（例如）3、6、12个月中需要多少纸张。到目前为止，我才知道我在寻找什么叫做外推法，而不是更多:) 在这种情况下可以使用什么算法？如果与先前算法不同，哪种算法还可以利用更多的数据点来提供当前的供电水平（例如，如果我知道在XI的日期还剩Y张纸）？如果您知道更好的术语，请随时编辑问题，标题和标签。编辑：对于它的价值，我将尝试在python中进行编码。我知道有很多库可以实现或多或少的任何算法。在这个问题中，我想探索可以使用的概念和技术，并把实际的实现留给读者练习。

10 time-series machine-learning forecasting

1

进行时间序列预测时的良好做法

我已经进行了几个月的短期负荷预测，并使用气候/天气数据来提高准确性。我具有计算机科学背景，因此，我尝试使用ARIMA模型之类的统计工具避免犯大错和不公平的比较。我想知道您对以下几点的看法：我同时使用（S）ARIMA和（S）ARIMAX模型来研究天气数据对天气预报的影响，您认为是否还需要使用指数平滑方法？从头两个星期开始，我有300个每日样本的时间序列，并使用auto.arima R函数（预测软件包）构建的模型进行了提前5天的预测。然后，将另一个样本添加到我的数据集中，然后再次校准模型，然后再进行5天的预测，依此类推，直到可用数据结束。您认为这种操作方式正确吗？感谢您的建议，尽管我们的工作目标是发表在工程学期刊上的文章，但从统计的角度来看，我想做的尽可能严格。

10 time-series forecasting arima

3

通过平均数据点组合两个时间序列

我想通过最小化均方预测误差，将一个时间序列数据集的预测值和预测值（即过去的预测值）组合为一个时间序列。假设我有一个2001-2010年的时间序列，与2007年之间有一个间隔。我已经能够使用2001-2007年数据（红线-称为YfYfY_f）来预测2007年，并能够使用2008-2009年数据进行反向预测（光蓝线-称为YbYbY_b）。我想将YfYfY_f和的数据点合并为每个月的估算数据点Y_i。理想情况下，我希望获得权重，以使其最小化的均方预测误差（MSPE）。如果这不可能，那么我如何才能找到两个时间序列数据点之间的平均值？ w ^ ÿ 我YbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 作为一个简单的例子： tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 3 4 5 6 7 …

10 r time-series forecasting data-imputation

1

成功的实际应用中的计量经济学方法的书面/可复制示例？

这个问题听起来可能很广泛，但这就是我想要的。我知道有许多关于计量经济学方法的优秀书籍，以及关于计量经济学技术的许多出色的说明性文章。如此CrossValidated 问题中所述，甚至还有极好的可重复的计量经济学示例。实际上，此问题中的示例与我要寻找的非常接近；这些示例中唯一缺少的是它们仅是研究报告，而没有提及研究结果在实际应用中的表现。我正在寻找的是计量经济学理论在现实世界中应用的已记录/可复制的示例，这些示例理想地具有以下特征：它们应该是可重复的，即，包含的详细描述（并指针）的数据，计量技术，和代码。理想情况下，代码将使用R语言。根据详细量化的成功指标，应该有详细的文档显示该技术在现实世界中取得了成功（例如“该技术有助于增加收入，因为它可以改善需求预测，这是其中涉及的数字”）我在这里广泛使用“ 计量经济学 ”一词-我的意思是任何种类的数据挖掘，统计数据分析，预测，预测或机器学习技术。查找此类示例的一个直接问题是：计量经济学的许多成功应用都是在营利性环境中完成的，因此是专有的，因此，如果一项技术行之有效，则可能不会公开（特别是在专有交易的情况下）策略），但我仍然希望有一些已发布的示例至少具有上述属性（2），如果不是同时具有（1）和（2）。

10 r machine-learning forecasting data-mining econometrics

3

汇总时间序列以使其看起来更有意义是否有效？

我还有另一个关于时间序列的问题。我有一个数据集，可以提供三年内精神病医院的暴力事件的每日记录。在上一个问题的帮助下，我一直在摆弄它，现在对此感到高兴。我现在要知道的是，每日系列非常嘈杂。它从0时到20时上下波动剧烈。使用黄土图和预测软件包（我可以为像我这样的新手强烈推荐），我得到一条完全平坦的线，且预测的置信区间很大。但是，每周或每月汇总数据更有意义。它们从系列开始时就开始下降，然后在中间再次上升。黄土图和预测包都产生了看起来更有意义的东西。确实感觉有点像作弊。我是不是更喜欢聚合版本，因为它们看起来不错，没有任何实际有效性？还是计算移动平均值并以此为基础会更好？恐怕我对所有这些背后的理论还不够了解，无法对可以接受的东西充满信心

10 time-series forecasting

3

使用外部变量预测时间序列数据

目前，我正在一个项目中进行时间序列数据（每月数据）的预测。我正在使用R进行预测。我有1个因变量（y）和3个独立变量（x1，x2，x3）。y变量具有73个观测值，其他3个变量也具有观测值（alos 73）。从2009年1月到2015年1月。我检查了相关性和p值，将其放入模型中非常重要。我的问题是：如何使用所有自变量进行良好的预测？我没有这些变量的将来值。假设我想预测两年（2017年）后我的y变量。我怎样才能做到这一点？我尝试了以下代码： model = arima(y, order(0,2,0), xreg = externaldata) 我可以使用此代码对两年内的y值进行预测吗？我还尝试了回归代码： reg = lm(y ~ x1 + x2 + x3) 但是如何花时间在这段代码中？我如何预测我的y值将超过2年？我是统计和预测的新手。我已经进行了一些读取并查看了滞后值，但是如何在模型中使用滞后值进行预测呢？实际上，我的总体问题是，如何使用没有未来价值的外部变量来预测时间序列数据？

10 time-series multiple-regression forecasting lags

Questions tagged «forecasting»