Questions tagged «arima»

指在时间序列建模中用于数据描述和预测的AutoRegressive集成移动平均模型。该模型通过包含差异项来概括ARMA模型,这对于消除趋势和处理某些类型的非平稳性很有用。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
移动平均过程的真实例子
您能否举一些真实的时间序列示例,其移动平均过程为阶,即 是否有先验的理由成为好的模型?至少对我来说,自回归过程似乎很容易直观地理解,而MA过程乍一看似乎并不自然。请注意,我对这里的理论结果(例如沃尔德定理或可逆性)不感兴趣。qqqÿŤ= ∑我= 1qθ一世εt − i+ εŤ, 其中 εŤ〜ñ(0 , σ2)yt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) 作为我要寻找的示例,假设您的每日股票收益为。然后,平均每周股票收益将具有MA(4)结构作为纯统计伪像。[RŤ〜IID (0 ,σ2)rt∼IID(0,σ2)r_t \sim \text{IID}(0, \sigma^2)

5
状态空间模型和卡尔曼滤波器在时间序列建模中的缺点是什么?
考虑到状态空间模型和KF的所有良好特性,我想知道- 状态空间建模并使用卡尔曼滤波器(或EKF,UKF或粒子滤波器)进行估计的缺点是什么?笼统地说,是ARIMA,VAR或即席/启发式方法之类的常规方法。 它们难于校准吗?他们是否复杂且很难看到模型结构的变化将如何影响预测? 或者,换种说法-传统ARIMA,VAR与状态空间模型相比有什么优势? 我只能想到状态空间模型的优点: 它可以轻松地处理某些静态模型的结构破坏,移位,时变参数-只需使这些参数成为状态空间模型的动态状态,模型便会自动适应任何参数移位; 它非常自然地处理丢失的数据,只需执行KF的过渡步骤,而不执行更新步骤; 它允许更改状态空间模型本身的动态参数(噪声和过渡/观测矩阵的协方差),因此,如果您当前的观测值来自与其他观测值略有不同的源,则无需进行任何操作即可轻松将其合并到估计中有什么特别的 使用上述属性,可以轻松处理不规则空间的数据:根据观察之间的间隔每次更改模型,或者使用规则的间隔并将没有观察的间隔视为丢失数据; 它允许在同一模型中同时使用来自不同来源的数据来估算一个基础数量; 它允许从几个可解释的,不可观察的动态成分构建模型并进行估计; 任何ARIMA模型都可以以状态空间形式表示,但是只有简单的状态空间模型可以以ARIMA形式精确表示。

2
为什么将MA(q)时间序列模型称为“移动平均值”?
当我阅读与时间序列有关的“移动平均值”时,我认为类似或加权平均值,例如0.5xt−1+0.3xt−2+0.2xt−3。(我意识到这些实际上是AR(3)模型,但这是我的大脑要跳到的模型。)为什么MA(q)模型的误差项或“创新”公式?是什么{ε}与移动平均办?我觉得我似乎缺少一些直觉。(xt−1+xt−2+xt−3)3(xt−1+xt−2+xt−3)3\frac{(x_{t-1} + x_{t-2} + x_{t-3})}30.5xt−1+0.3xt−2+0.2xt−30.5xt−1+0.3xt−2+0.2xt−30.5x_{t-1} + 0.3x_{t-2} + 0.2x_{t-3}{ϵ}{ϵ}\{\epsilon\}

4
GARCH和ARMA有什么区别?
我很困惑。我不了解ARMA和GARCH流程的区别。 这是(G)ARCH(p,q)过程 σ2t=α0+∑i=1qαir2t−iARCH+∑i=1pβiσ2t−iGARCHσt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} _{GARCH} 这是ARMA():p,qp,qp, q Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i.Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i. X_t = c + \varepsilon_t + \sum_{i=1}^p \varphi_i X_{t-i} + \sum_{i=1}^q \theta_i \varepsilon_{t-i}.\, ARMA是否只是GARCH的扩展,GARCH仅用于收益,并且假设,其中\ varepsilon遵循强白色过程?r=σεr=σεr = \sigma\varepsilonεε\varepsilon
42 arima  garch  finance 

2
MEAN胜过ARIMA是不寻常的吗?
我最近应用了多种预测方法(MEAN,RWF,ETS,ARIMA和MLP),发现MEAN的表现出奇的好。(均值:所有未来的预测均等于观测值的算术平均值。)在我使用的三个序列中,均值甚至优于ARIMA。 我想知道这是否不寻常?这是否意味着我使用的时间序列很奇怪?还是这表明我设置有误?

1
使用R中的tsoutliers包检测时间序列中的离群值(LS / AO / TC)。如何用公式格式表示离群值?
评论: 首先,我要非常感谢新的tsoutliers软件包的作者,该软件包实现了Chen和Liu的时间序列离群值检测,该软件包于1993年在《美国统计协会杂志》上的开源软件。[R[RR 程序包在时间序列数据中迭代检测5种不同类型的离群值: 附加异常值(AO) 创新离群值(IO) 电平转换(LS) 临时变更(TC) 季节性水平变动(SLS) 更妙的是,此程序包从预测程序包实现了auto.arima,因此可以无缝检测异常值。软件包还可以生成漂亮的图,以更好地了解时间序列数据。 以下是我的问题: 我尝试使用此程序包运行一些示例,但效果很好。加法离群值和电平移位很直观。但是,在处理临时更改离群值和创新离群值方面,我有两个问题,我无法理解。 临时更改异常值示例: 考虑以下示例: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) 该程序正确地检测到以下位置的电平变化和临时变化。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下是情节和我的问题。 如何以等式格式写入临时更改?(电平移位可以很容易地写为二进制变量,在1935 / Obs 12之前的任何时候为0,在1935年之后和之后的任何时候为1。) 包装手册和本文中的临时更改公式为: L (B …

3
如何用R拟合ARIMAX模型?
我有四个不同的每小时测量时间序列: 房屋内部的热量消耗 屋外温度 太阳辐射 风速 我希望能够预测房屋内部的热量消耗。每年和每天都有明显的季节性趋势。由于不同系列之间存在明显的相关性,因此我想使用ARIMAX模型拟合它们。可以使用包TSA中的arimax函数在R中完成。 我试图阅读有关此函数的文档,并阅读传递函数,但到目前为止,我的代码是: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) 给我: 黑线是实际测量的数据,绿线是我的比较模型。这不仅不是一个好的模型,而且显然有些错误。 我承认我对ARIMAX模型和传递函数的了解有限。在函数arimax()中(据我了解),xtransf是我要使用(使用传递函数)来预测我的主要时间序列的外生时间序列。但是xreg和xtransf到底有什么区别? 一般来说,我做错了什么?我希望能够获得比从lm(热〜临时辐射风*时间)获得的更好的拟合度。 编辑: 基于一些评论,我删除了transfer,并添加了xreg: regParams = ts.union(ts(dayy), ts(temp), ts(time)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams) 其中dayy是“一年中的第几天”,而时间是一天中的小时。温度再次是外界温度。这给了我以下结果: 更好,但远不及我所期望的。

7
时间序列分析的重点是什么?
时间序列分析的重点是什么? 还有很多其他统计方法,例如回归和机器学习,它们都有明显的用例:回归可以提供有关两个变量之间关系的信息,而机器学习非常适合预测。 但是与此同时,我看不到时间序列分析有什么用。当然,我可以拟合ARIMA模型并将其用于预测,但是当该预测的置信区间将很大时,这有什么好处呢?尽管这是世界历史上数据驱动最多的行业,但没有人能预测股市是有原因的。 同样,如何使用它来进一步了解我的流程?当然,我可以绘制ACF并进行“啊哈!有一些依赖!”,那又如何呢?重点是什么?当然存在依赖性,这就是为什么要开始进行时间序列分析的原因。您已经知道存在依赖性。但是您打算将其用于什么?

1
R中秒/分钟间隔数据的“频率”值
我正在使用R(3.1.1)和ARIMA模型进行预测。我想知道什么是“频率”参数ts(),如果im使用时间序列数据,则该参数应在函数中分配: 以分钟为单位,并持续180天(每天1440分钟) 相隔数秒,分布在180天(86,400秒/天)中。 如果我没记错的话,R中以ts为单位的“频率”是每个“季节”的观测次数。 问题部分1: 在我的情况下,“季节”是什么? 如果季节是“日”,那么分钟的“频率”是1440,秒是86400? 问题第二部分: “频率”是否还取决于我要达到/预测的目标? 例如,就我而言,我想要一个非常短期的预测。每次比10分钟领先一步。 然后可以将季节视为一个小时而不是一天吗? 在那种情况下,频率= 60分钟,而频率= 3600秒? 例如,我尝试使用频率= 60作为分钟数据,与频率= 1440相比,得到了更好的结果(用于fourier查看Hyndman的以下链接) http://robjhyndman.com/hyndsight/forecasting-weekly-data/ (使用MAPE进行预测准确性的比较) 如果结果完全是任意的,并且无法更改频率。在我的数据上使用freq = 60的实际解释是什么? 我也认为值得一提的是,我的数据每隔两个小时包含一次季节性变化(通过观察原始数据和自相关函数)

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


1
如何直观地理解SARIMAX?
我正在尝试阅读有关电力负荷预测的论文,但我在内部概念(特别是SARIMAX模型)中苦苦挣扎。该模型用于预测负载,并使用许多我不了解的统计概念(我是本科计算机科学专业的学生,​​您可以认为我是统计学的外行)。我没有必要完全了解它是如何工作的,但是我至少想直观地了解正在发生的事情。 我一直在尝试将SARIMAX分成较小的部分,并试图分别理解每个部分,然后将它们组合在一起。你们能帮我吗?到目前为止,这就是我所拥有的。 我从AR和MA开始。 AR:自回归。我已经了解了回归是什么,并且据我所知,它只是回答了这个问题:给定一组值/点,如何找到一个解释这些值的模型?因此,例如,我们有线性回归,它试图找到一条可以解释所有这些点的线。自回归是一种试图使用先前的值解释值的回归。 MA:移动平均线。我实际上在这里很迷路。我知道什么是移动平均线,但是移动平均线模型似乎与“正常”移动平均线没有任何关系。该模型的公式似乎与AR很尴尬,我似乎无法理解我在互联网上找到的任何概念。MA的目的是什么?MA和AR有什么区别? 所以现在有了ARMA。然后,我来自Integrated,据我所知,它仅是为了使ARMA模型具有增加或减少的趋势。(这是否等于说ARIMA允许它是非平稳的?) 现在是来自季节性的S,这增加了ARIMA的周期性,例如,在负载预测的情况下,该参数基本上表示每天6 PM的负载看起来非常相似。 最后,来自外生变量的X基本上允许在模型中考虑外部变量,例如天气预报。 所以我们终于有了SARIMAX!我的解释可以吗?认识到这些解释并不需要严格正确。有人可以直观地解释我的意思吗?

4
在拟合ARIMA模型之前何时记录对时间序列的变换
我以前曾使用Forecast Pro预测单变量时间序列,但将工作流程切换到R。R的预测程序包包含许多有用的功能,但它没有做的一件事是在运行auto之前进行了任何类型的数据转换。 .arima()。在某些情况下,预测专家决定在进行预测之前记录转换数据,但是我还没有弄清楚为什么。 所以我的问题是:在尝试使用ARIMA方法之前,我应该何时对时间序列进行日志转换? / edit:阅读答案后,我将使用类似x的时间序列: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } 这有意义吗?

5
寻求某种类型的ARIMA解释
这可能很难找到,但是我想阅读一个很好解释的ARIMA示例, 使用最少的数学 将讨论从构建模型扩展到使用该模型预测特定案例 使用图形和数值结果来表征预测值和实际值之间的拟合度。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.