Questions tagged «autoregressive»

自回归(AR)模型是一个随机过程建模时间序列,它根据先前的值线性地指定该序列的值。

1
如何直观地理解SARIMAX?
我正在尝试阅读有关电力负荷预测的论文,但我在内部概念(特别是SARIMAX模型)中苦苦挣扎。该模型用于预测负载,并使用许多我不了解的统计概念(我是本科计算机科学专业的学生,​​您可以认为我是统计学的外行)。我没有必要完全了解它是如何工作的,但是我至少想直观地了解正在发生的事情。 我一直在尝试将SARIMAX分成较小的部分,并试图分别理解每个部分,然后将它们组合在一起。你们能帮我吗?到目前为止,这就是我所拥有的。 我从AR和MA开始。 AR:自回归。我已经了解了回归是什么,并且据我所知,它只是回答了这个问题:给定一组值/点,如何找到一个解释这些值的模型?因此,例如,我们有线性回归,它试图找到一条可以解释所有这些点的线。自回归是一种试图使用先前的值解释值的回归。 MA:移动平均线。我实际上在这里很迷路。我知道什么是移动平均线,但是移动平均线模型似乎与“正常”移动平均线没有任何关系。该模型的公式似乎与AR很尴尬,我似乎无法理解我在互联网上找到的任何概念。MA的目的是什么?MA和AR有什么区别? 所以现在有了ARMA。然后,我来自Integrated,据我所知,它仅是为了使ARMA模型具有增加或减少的趋势。(这是否等于说ARIMA允许它是非平稳的?) 现在是来自季节性的S,这增加了ARIMA的周期性,例如,在负载预测的情况下,该参数基本上表示每天6 PM的负载看起来非常相似。 最后,来自外生变量的X基本上允许在模型中考虑外部变量,例如天气预报。 所以我们终于有了SARIMAX!我的解释可以吗?认识到这些解释并不需要严格正确。有人可以直观地解释我的意思吗?


2
如果自回归时间序列模型是非线性的,它是否仍然需要平稳性?
关于使用递归神经网络进行时间序列预测的思考。与使用线性自回归的ARMA和ARIMA模型相比,它们基本上实现了一种广义的非线性自回归。 如果我们正在执行非线性自回归,那么时间序列是否仍需保持平稳,是否需要以与ARIMA模型相同的方式进行微分? 还是模型的非线性特征使其具有处理非平稳时间序列的能力? 换句话说,ARMA和ARIMA模型的平稳性要求(均值和方差)是由于这些模型是线性的,还是因为其他原因?

1
我们为什么要关心MA过程是否可逆?
我很难理解为什么我们要关心MA过程是否可逆。 如果我错了,请纠正我,但我可以理解为什么我们关心AR进程是否是因果关系的,也就是说,如果我们可以“重写它”,可以说是某些参数和白噪声的总和-即移动平均过程。如果是这样,我们可以很容易地看到AR过程是因果的。 但是,我很难理解为什么我们要通过显示可逆性来表示是否可以将MA流程表示为AR流程。我不太了解我们为什么在乎。 任何见识都会很棒。

2
具有异方差测量误差的AR(1)过程
1.问题 我对变量进行了一些测量,其中,我通过MCMC获得了分布,为简单起见,我将其假设为均值的高斯和方差。ytyty_tt=1,2,..,nt=1,2,..,nt=1,2,..,nfyt(yt)fyt(yt)f_{y_t}(y_t)μtμt\mu_tσ2tσt2\sigma_t^2 对于这些观察,我有一个物理模型,例如,但是残差似乎是相关的;特别是,我有物理上的理由认为流程足以考虑相关性,因此我计划通过MCMC获得拟合系数,为此我需要可能性。我认为解决方案很简单,但是我不太确定(它看起来很简单,以至于我遗漏了一些东西)。g(t)g(t)g(t)rt=μt−g(t)rt=μt−g(t)r_t = \mu_t-g(t)AR(1)AR(1)AR(1) 2.推导可能性 零均值流程可写为: 其中,我假设。因此,要估计的参数为(在我的情况下,我还必须添加模型的参数,但这不是问题)。但是,我观察到的是变量 ,其中我假设和是已知的(测量误差)。因为是高斯过程,所以也是。我特别知道 X 吨 = φ X 吨- 1 + ε 吨,(1 )ε 吨〜Ñ (0 ,σ 2 瓦特)θ = { φ ,σ 2 瓦特 } 克(吨)- [R 吨 = X 吨 + η 吨,(2 )η 吨〜ñ (AR(1)AR(1)AR(1)Xt=ϕXt−1+εt, (1)Xt=ϕXt−1+εt, (1)X_t = \phi X_{t-1}+\varepsilon_t,\ \ …

3
ACF和PACF如何识别MA和AR术语的顺序?
我从事不同的时间序列已经超过2年了。我读过许多文章,其中ACF用于标识MA术语的顺序,而PACF用于标识AR。有一条经验法则,对于MA,ACF突然关闭的延迟是MA的顺序,对于PACF和AR同样。 这是我从PennState Eberly College of Science所读的文章之一。 我的问题是为什么呢?对我来说,甚至ACF都可以赋予AR术语。我需要上述拇指法则的解释。我无法直观/数学地理解拇指法则,为什么- 通常,最好使用PACF来识别AR模型。 通常,最好使用ACF而非PACF来完成MA模型的识别 请注意:-我不需要,但是“为什么”。:)

3
确定性模型和随机模型有什么区别?
简单线性模型: ε 吨 Ñ (0 ,σ 2)x=αt+ϵtx=αt+ϵtx=\alpha t + \epsilon_t其中 〜IIDϵtϵt\epsilon_tN(0,σ2)N(0,σ2)N(0,\sigma^2) 与和V 一- [R (X )= σ 2E(x)=αtE(x)=αtE(x) = \alpha tVar(x)=σ2Var(x)=σ2Var(x)=\sigma^2 AR(1): ε 吨 Ñ (0 ,σ 2)Xt=αXt−1+ϵtXt=αXt−1+ϵtX_t =\alpha X_{t-1} + \epsilon_t其中 〜IIDϵtϵt\epsilon_tN(0,σ2)N(0,σ2)N(0,\sigma^2) 与和V 一- [R (X )= 吨σ 2E(x)=αtE(x)=αtE(x) = \alpha tVar(x)=tσ2Var(x)=tσ2Var(x)=t\sigma^2 因此,简单的线性模型被视为确定性模型,而AR(1)模型被视为随机模型。 根据本·兰伯特(Ben Lambert)-确定性与随机性的Youtube视频,将AR(1)称为随机模型的原因是因为它的方差随时间增加。那么,非恒定方差的特征是否是确定随机或确定性的标准? 我也认为简单线性模型不是完全确定性的,因为我们有一个项与模型相关联。因此,我们总是在具有随机性。那么我们可以说模型是确定性的还是随机的呢? Xϵtϵt\epsilon_txxx

3
为什么AR(1)系数的OLS估算器有偏差?
我试图理解为什么OLS会给出AR(1)进程的有偏估计量。考虑 在此模型中,违反了严格的外生性,即和是相关的,而和是不相关的。但是,如果这是真的,那么为什么以下简单推导不成立? ý吨ε吨ý吨-1ε吨头激动 βytϵt=α+βyt−1+ϵt,∼iidN(0,1).yt=α+βyt−1+ϵt,ϵt∼iidN(0,1). \begin{aligned} y_{t} &= \alpha + \beta y_{t-1} + \epsilon_{t}, \\ \epsilon_{t} &\stackrel{iid}{\sim} N(0,1). \end{aligned} ytyty_tϵtϵt\epsilon_tyt−1yt−1y_{t-1}ϵtϵt\epsilon_tplim β^=Cov(yt,yt−1)Var(yt−1)=Cov(α+βyt−1+ϵt,yt−1)Var(yt−1)=β+Cov(ϵt,yt−1)Var(yt−1)=β.plim β^=Cov(yt,yt−1)Var(yt−1)=Cov(α+βyt−1+ϵt,yt−1)Var(yt−1)=β+Cov(ϵt,yt−1)Var(yt−1)=β. \begin{aligned} \text{plim} \ \hat{\beta} &= \frac{\text{Cov}(y_{t},y_{t-1})}{\text{Var}(y_{t-1})} \\ &=\frac{\text{Cov}(\alpha + \beta y_{t-1}+\epsilon_{t}, y_{t-1})}{\text{Var}(y_{t-1})} \\ &= \beta+ \frac{\text{Cov}(\epsilon_{t}, y_{t-1})}{\text{Var}(y_{t-1})} \\ &=\beta. \end{aligned}

2
AR()模型的无偏估计
考虑一个AR()模型(为简单起见,假设均值为零):ppp xt=φ1xt−1+…+φpxt−p+εtxt=φ1xt−1+…+φpxt−p+εt x_t = \varphi_1 x_{t-1} + \dotsc + \varphi_p x_{t-p} + \varepsilon_t 如最近的线程所述,已知的OLS估计量(等于条件最大似然估计量是有偏差的。φ: =( φ1个,… ,φp)φ:=(φ1,…,φp)\mathbf{\varphi} := (\varphi_1,\dotsc,\varphi_p) (奇怪的是,我找不到汉密尔顿的《时间序列分析》或其他一些时间序列教科书中提到的偏见。但是,可以在各种讲义和学术文章中找到它,例如this。) 我无法找出AR()的确切最大似然估计是否有偏差;因此,我的第一个问题。ppp 问题1:是确切的 AR(最大似然估计)模型的自回归参数偏见吗?(让我们假设AR()过程是平稳的。否则,估计量甚至是不一致的,因为它被限制在平稳区域内;请参见Hamilton的“时间序列分析”,第123页。)φ 1,... ,φ p ppppφ1,…,φpφ1,…,φp\varphi_1,\dotsc,\varphi_pppp 也, 问题2:是否有任何合理简单的无偏估计量?

1
时间序列预测的随机森林回归
我正在尝试利用RF回归对造纸厂的性能进行预测。 我每分钟都有输入数据(进纸木浆的速度和数量等)以及机器的性能(生产的纸张,机器消耗的功率)的数据,我希望做出10分钟的预测在性能变量上领先。 我有12个月的数据,因此将其分为11个月的培训时间和最后一个月的测试时间。 到目前为止,我已经创建了10个新功能,每个性能变量的滞后值在1-10分钟之内,并使用这些功能以及输入来进行预测。测试集的性能一直很好(系统是可以预测的),但是我担心我的方法中缺少某些东西。 例如,在本文中,作者陈述了他们测试随机森林模型的预测能力的方法: 通过迭代添加新一周的数据,基于更新后的数据训练新模型并预测下一周的爆发次数来进行模拟 这与利用时间序列中的“后来的”数据作为测试有何不同?我是否应该使用这种方法以及测试数据集来验证我的RF回归模型?此外,这种对森林随机回归的“自回归”方法是否对时间序列有效,如果我对未来10分钟的预测感兴趣,我是否甚至需要创建这么多滞后变量?

1
对自相关二进制时间序列建模
对二进制时间序列建模的常用方法是什么?是否有纸质或教科书在其中处理?我认为具有强自相关的二进制过程。类似于从零开始的AR(1)进程的符号。说且 有白噪声。然后,由定义 的二进制时间序列 将显示自相关,我想用以下代码进行说明X0=0X0=0X_0 = 0Xt+1=β1Xt+ϵt,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, ϵtϵt\epsilon_t(Yt)t≥0(Yt)t≥0(Y_t)_{t \ge 0}Yt=sign(Xt)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) X = rep(0,100) beta = 0.9 sigma = 0.1 for(i in 1:(length(X)-1)){ X[i+1] =beta*X[i] + rnorm(1,sd=sigma) } acf(X) acf(sign(X)) 如果我得到二进制数据并且我所知道的是存在显着的自相关,那么教科书/常用的建模方法是什么?YtYtY_t 我认为,如果使用外部回归变量或季节性假人,我可以进行逻辑回归。但是,纯时间序列方法是什么? 编辑:确切地说,我们假设sign(X)最多可自动关联4个滞后。这将是4阶的马尔可夫模型,我们可以对其进行拟合和预测吗? 编辑2:同时,我偶然发现了时间序列的glms。这些是解释错误的变量,它们是滞后的观察结果和外部回归变量。但是,这似乎是针对泊松和负二项式分布计数完成的。我可以使用泊松分布来估算伯努利斯。我只是想知道是否没有明确的教科书方法。 编辑3:赏金到期...有什么想法吗?


1
R和EViews AR(1)估算值的差异
主要问题是:我无法使用EViews和R获得类似的参数估计。 由于我自己不了解的原因,我需要使用EViews估算某些数据的参数。这是通过选择NLS(非线性最小二乘)选项并使用以下公式来完成的:indep_var c dep_var ar(1) 的EViews 权利要求:它们估计线性AR(1)处理,诸如 其中错误被定义为: 通过使用等效等式(带有一些代数替换): 此外,该线程在EViews论坛上,建议他们的NLS估计值是由Marquardt算法生成的。ÿŤ= α + βXŤ+ 你ŤÿŤ=α+βXŤ+üŤ Y_t = \alpha + \beta X_t + u_t üŤüŤu_tüŤ= ρ ·&ùt − 1+εut=ρ⋅ut−1+ε u_t = \rho \cdot u_{t-1} + \varepsilon Yt= (1 -ρ)α+ρYt−1+βXt−ρβXt−1+εŤYt=(1-ρ)α+ρÿŤ-1个+βXŤ-ρβXŤ-1个+εŤ Y_t = (1 - \rho) \alpha + \rho Y_{t - 1} + \beta …

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.