统计和大数据 arima

4

我有17年（1995年至2011年）的死亡证明数据与美国某州的自杀死亡有关。关于自杀和自杀的个月数/季节，有很多神话，其中很多是自相矛盾的，我的文献中经过审查，我对所使用的方法或结果的把握并不清楚。因此，我着手确定是否可以确定我的数据集中在任何给定月份内自杀的可能性或高或低。我所有的分析都在R中完成。数据中的自杀总数为13,909。如果您以自杀次数最少的年份为例，它们发生在309/365天（85％）。如果您查看自杀次数最多的年份，则发生在339/365天（93％）。因此，每年都有相当多的日子没有自杀。但是，如果将这17年的总和汇总起来，那么一年中的每一天（包括2月29日）都会有自杀事件（尽管平均值为38时只有5次）。（在我看来）仅将一年中每一天的自杀总数加起来并不表示明显的季节性。按月汇总，每月平均自杀范围为：（m = 65，sd = 7.4，至m = 72，sd = 11.1）我的第一种方法是按年份汇总所有年份的数据集，并在计算出原假设的预期概率后得出卡氏检验，即按月计算的自杀人数没有系统差异。我考虑了天数（并针对taking年调整了2月），计算了每个月的概率。卡方结果表明按月没有明显变化： # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下图显示了每月的总数。水平红线分别位于2月，30天和31天月份的期望值。与卡方检验一致，对于预期计数，没有一个月份在95％置信区间之外。我以为我已经做完了，直到我开始研究时间序列数据。正如我想象的那样，我首先使用stlstats包中的函数进行非参数的季节性分解方法。为了创建时间序列数据，我从汇总的每月数据开始： suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …

24 r chi-squared arima count-data seasonality

2

使用ARMA对非平稳过程进行建模的后果？

我知道我们应该使用ARIMA对非平稳时间序列进行建模。另外，我读到的所有内容都说ARMA只应用于固定时间序列。我想了解的是，在对模型进行错误分类并假设d = 0非平稳时间序列时，在实践中会发生什么？例如： controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) 控制数据如下所示： [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178 [26] …

23 r time-series arima stationarity

3

哪些常见的预测模型可以视为ARIMA模型的特例？

今天早上，我醒来想知道（这可能是由于昨晚我睡不着觉）：由于交叉验证似乎是正确的时间序列预测的基础，因此我应该“通常使用哪些模型交叉验证反对？我提出了一些（简单的）方法，但是我很快意识到，它们只是ARIMA模型的特例。所以我现在想知道，这是一个实际的问题，Box-Jenknins方法已经采用了哪些预测模型？让我这样说吧：均值= ARIMA（0,0,0），常数天真= ARIMA（0,1,0）漂移= ARIMA（0,1,0）不变简单指数平滑= ARIMA（0,1,1） Holt的指数平滑= ARIMA（0,2,2）阻尼霍尔特= ARIMA（0,1,2）加性Holt-Winters：SARIMA（0,1，m + 1）（0,1,0）m 还有什么可以添加到上一个列表中？有没有办法做移动平均或最小二乘回归的“ ARIMA方法”？另外，其他简单模型（例如ARIMA（0,0,1），ARIMA（1,0,0），ARIMA（1,1,1），ARIMA（1,0,1）等）如何转换？请注意，至少对于初学者而言，我对ARIMA模型无法执行的操作不感兴趣。现在，我只想专注于他们可以做什么。我知道了解ARIMA模型中的每个“构造块”应该回答上述所有问题，但是由于某些原因，我很难弄清这一点。因此，我致力于尝试一种“逆向工程”方法。

23 time-series cross-validation arima

3

如何计算R中ARIMA模型的参数的p值？

在R中进行时间序列研究时，我发现arima 仅提供系数值及其拟合模型的标准误差。但是，我也想获得系数的p值。我没有找到任何可提供coef意义的功能。所以我希望自己计算，但是我不知道系数的t或chisq分布的自由度。所以我的问题是如何在R中获得拟合的Arima模型系数的p值？

23 r time-series chi-squared arima parametric

3

具有每日数据的自动ARIMA：如何捕获季节性/周期性？

我正在每天时间序列上拟合ARIMA模型。从2010年2月1日到2011年7月30日每天收集数据，这些数据与报纸的销售有关。由于可以发现每周的销售模式（星期一至星期五的每日平均销售份数通常相同，然后在星期六和星期日增加），因此我试图捕捉这种“季节性”。给定销售数据“数据”，我按如下方式创建时间序列： salests<-ts(data,start=c(2010,1),frequency=365) 然后使用auto.arima（。）函数通过AIC准则选择最佳的ARIMA模型。结果始终是非季节性的ARIMA模型，但是如果我尝试使用以下语法作为示例的SARIMA模型，例如： sarima1<-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) 我可以获得更好的结果。ts命令/ arima规范中是否有任何错误？每周模式非常强大，因此我不希望在捕获它时遇到太多困难。任何帮助将非常有用。谢谢朱莉娅·德皮里（Giulia Deppieri）更新：我已经改变了一些论点。更准确地说，当我设置时，该过程选择ARIMA（4,1,3）作为最佳模型D=7，但AIC和其他拟合指数和预测良好的方法根本没有改善。我猜是由于季节性和周期性之间的混淆导致一些错误。使用Auto.arima调用并获得输出： modArima<-auto.arima(salests,D=7,max.P = 5, max.Q = 5) ARIMA(2,1,2) with drift : 1e+20 ARIMA(0,1,0) with drift : 5265.543 ARIMA(1,1,0) with drift : 5182.772 ARIMA(0,1,1) with drift : 1e+20 ARIMA(2,1,0) …

21 r time-series arima seasonality

1

如何在R中的auto.arima（）中设置xreg参数？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 6年前关闭。我正在做一个具有一个时间序列的小型项目，该序列可测量（每日）客户访问数据。我的协变量是一个连续变量，Day用于测量从数据收集的第一天起已经经过了多少天，还有一些虚拟变量，例如该天是否是圣诞节以及星期几。我的部分数据如下所示： Date Customer_Visit Weekday Christmas Day 11/28/11 2535 2 0 1 11/29/11 3292 3 0 2 11/30/11 4103 4 0 3 12/1/11 4541 5 0 4 12/2/11 6342 6 0 5 12/3/11 7205 7 0 6 12/4/11 3872 1 0 7 12/5/11 3270 2 0 …

19 time-series arima

1

逐步AIC-关于此主题是否存在争议？

我在该网站上阅读了无数帖子，这些帖子令人难以置信地反对使用任何类型的标准（无论是基于p值，AIC，BIC等）逐步选择变量。我理解为什么这些程序通常比较笼统，而变量选择却很差。龚可能在这里著名的帖子清楚地说明了原因；最终，我们将在用于得出假设的同一数据集上验证假设，即数据挖掘。此外，p值还受共线性和离群值之类的量的影响，这些结果会严重偏斜等。但是，最近我一直在研究时间序列预测，并且遇到了Hyndman备受推崇的教科书，他在这里提到使用逐步选择来找到ARIMA模型的最佳顺序。实际上，在forecastR包中，众所周知auto.arima的默认算法默认使用逐步选择（对于AIC，不是p值）。他还批评了基于p值的功能选择，该功能与该网站上的多个帖子非常吻合。最终，如果目标是开发用于预测/预测的良好模型，则最终应始终以某种方式进行交叉验证。但是，在确定p值以外的评估指标的过程本身时，在这里肯定有一些分歧。在这种情况下，或者在这种情况下，对于使用逐步式AIC，有人是否有任何意见？我被教导要相信任何逐步的选择都是不好的，但是老实说，auto.arima(stepwise = TRUE)与样本相比，我给了我更好的结果，auto.arima(stepwise = FALSE)但是也许这只是巧合。

17 forecasting predictive-models arima aic stepwise-regression

4

移动平均模型误差项

这是Box-Jenkins MA模型的基本问题。据我了解，MA模型基本上是时间序列值对先前误差项的线性回归。也就是说，观测值首先针对其先前值回归，然后将一个或多个值用作MA的误差项模型。YYYet,...,et−net,...,et−ne_t,..., e_{t-n}YYYYt−1,...,Yt−nYt−1,...,Yt−nY_{t-1}, ..., Y_{t-n}Y−Y^Y−Y^Y - \hat{Y} 但是，如何在ARIMA（0，0，2）模型中计算误差项？如果使用MA模型时没有自回归部分，因此没有估计值，那么我怎么可能有一个误差项？

17 regression time-series arima box-jenkins

2

如何在检测到R中的离群值时进行预测？-时间序列分析程序和方法

我有每月的时间序列数据，并希望通过检测异常值来进行预测。这是我的数据集的示例： Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

16 r time-series forecasting arima outliers

2

时间序列预测中的随机与确定性趋势/季节关系

我在时间序列预测方面有中等背景。我看了几本预测书，但在其中任何一本中都没有看到以下问题。我有两个问题：如果给定的时间序列具有以下特征，我将如何客观地确定（通过统计检验）：随机季节性或确定性季节性随机趋势或确定性趋势如果当时间序列具有明显的随机成分时，将我的时间序列建模为确定性趋势/季节，将会发生什么？解决这些问题的任何帮助将不胜感激。趋势的示例数据： 7,657 5,451 10,883 9,554 9,519 10,047 10,663 10,864 11,447 12,710 15,169 16,205 14,507 15,400 16,800 19,000 20,198 18,573 19,375 21,032 23,250 25,219 28,549 29,759 28,262 28,506 33,885 34,776 35,347 34,628 33,043 30,214 31,013 31,496 34,115 33,433 34,198 35,863 37,789 34,561 36,434 34,371 …

16 time-series forecasting arima stochastic-processes

1

定义ARIMA订单时遇到问题

这是一篇很长的文章，所以希望您能忍受，并请纠正我错的地方。我的目标是根据3或4周的历史数据生成每日预测。该数据是变压器线路之一的局部负载的15分钟数据。我在查找季节性ARIMA过程的模型顺序时遇到麻烦。考虑用电时间序列：原始时间序列http://i.share.pho.to/80d86574_l.png 当将前三周作为子集并进行差分时，将计算以下ACF / PACF图：子集http://i.share.pho.to/5c165aef_l.png 第一个区别http://i.share.pho.to/b7300cc2_l.png 季节性和第一次差异http://i.share.pho.to/570c5397_l.png 看起来该系列有点固定。但是季节性也可以是每周一次（请参阅季节性差异周和二阶差异[在这里] http://share.pho.to/3owoq，您怎么看？）一[R 我中号A （p ，1 ，q）（P，1 ，Q ）96一种[R一世中号一种（p，1个，q）（P，1个，问）96 ARIMA(p,1,q)(P,1,Q)_{96} 一[R 我中号甲（0 ，1 ，4 ）（0 ，1 ，1 ）96一种[R一世中号一种（0，1个，4）（0，1个，1个）96 ARIMA(0,1,4)(0,1,1)_{96} Series: x ARIMA(0,1,4)(0,1,1)[96] Coefficients: ma1 ma2 ma3 ma4 sma1 -0.2187 -0.2233 -0.0996 -0.0983 -0.9796 s.e. 0.0231 0.0234 0.0257 0.0251 0.0804 sigma^2 …

16 forecasting arima model-selection seasonality fourier-transform

3

Auto.arima和autobox有何不同？

通过阅读该站点上的帖子，我知道有一个R 函数 auto.arima（在forecast 包中）。我也知道，IrishStat，这个网站的会员，建立了商业包装autobox在80年代初。由于这两个软件包已存在，并且会自动为给定的数据集选择Arima模型，它们有何不同之处？他们是否可能针对同一数据集产生不同的模型？

16 time-series arima automatic-algorithms

2

使用带有ARIMA错误的回归进行推理的平稳性要求是什么？

使用带有ARIMA错误的回归（动态回归）进行推理的平稳性要求是什么？具体来说，我有一个非平稳的连续结果变量，一个非平稳的连续预测变量和一个虚拟变量处理序列。我想知道治疗是否与结果变量的变化相关，该变化大于零变化之外的两个标准误差。ÿÿyX一种X一种x_aXbXbx_b 我不确定在使用ARIMA错误建模进行回归之前是否需要对这些序列进行差分处理。在回答另一个问题时，IrishStat指出的是while the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.，他然后继续补充说 unwarranted usage [of differencing] can create statistical/econometric nonsense。该SAS用户指南表明，它是罚款，以适应回归模型ARIMA误差的非平稳序列无差分，只要残差非平稳：请注意，平稳性要求适用于噪声序列。如果没有输入变量，则响应序列（在求和后减去平均值）和噪声序列相同。但是，如果有输入，则噪声序列是在消除输入影响后的残差。不需要输入序列是固定的。如果输入是不稳定的，即使噪声过程可能是固定的，响应序列也将是不稳定的。当使用非平稳输入序列时，可以在没有ARMA模型的情况下将输入变量拟合为误差，然后在确定噪声部分的ARMA模型之前考虑残差的平稳性。另一方面，Rob Hyndman和George Athanasopoulos断言：估计具有ARMA错误的回归的重要考虑因素是模型中的所有变量必须首先是平稳的。因此，我们首先必须检查yt和所有预测变量是否都固定。如果我们在其中任何一个都不平稳的情况下估计模型，则估计的系数可能是错误的。（x1 ，吨，… ，xķ ，吨）（X1个，Ť，…，Xķ，Ť）(x_{1,t},\dots,x_{k,t}) 一个例外是非平稳变量被共同积分的情况。如果在非平稳和预测变量之间存在线性组合，则估计的系数是正确的。ÿŤÿŤy_t 这些建议相互排斥吗？应用分析师如何进行？

16 regression time-series arima stationarity

4

梯度提升机的精度随着迭代次数的增加而降低

我正在通过caretR中的程序包尝试使用梯度增强机算法。使用一个小的大学录取数据集，我运行了以下代码： library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

ARIMA模型的正则化

我知道线性回归模型中的LASSO，山脊和弹性网正则化类型。题：可以将这种（或类似的）惩罚估计应用于ARIMA建模（具有非空MA部分）吗？ pmaxpmaxp_{max}qmaxqmaxq_{max} q ⩽ q 米一个Xp⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 我的其他问题是：我们是否可以包括（，）之前的所有项，但是会惩罚系数的大小（可能一直到零）？那有道理吗？ q 中号一个Xpmaxpmaxp_{max}qmaxqmaXq_{max} 如果可以，是否已在R或其他软件中实现？如果没有，那是什么麻烦？一些相关的帖子可以在这里找到。

15 time-series arima lasso regularization ridge-regression

Questions tagged «arima»