Questions tagged «autocorrelation»

自相关(串行相关)是一系列数据与自身之间的滞后关系。这是时间序列分析中的重要主题。

4
为什么在GAM中包含纬度和经度会引起空间自相关?
我已经制作了用于毁林的广义加性模型。为了说明空间自相关,我将经度和纬度作为平滑的交互项(即s(x,y))包括在内。 我以阅读许多论文为基础,这些论文的作者说:“要考虑空间自相关,将点的坐标作为平滑项包括在内”,但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍,以期找到答案,但是大多数书籍(例如,通用加性模型,R的简介,SN Wood)只是在不加解释的情况下触及了该主题。 如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中,以及“帐户”的真正含义,我真的很感激-将其包含在模型中是否足够简单,或者您应该将模型与s(x,y)in和没有模型?术语解释的偏差是否表示空间自相关的程度?

5
自相关测试:Ljung-Box与Breusch-Godfrey
我习惯于看到Ljung-Box测试非常频繁地用于测试原始数据或模型残差中的自相关。我几乎忘记了还有另一个自相关检验,即布劳希-哥德弗雷检验。 问题: Ljung-Box和Breusch-Godfrey检验的主要区别和相似之处是什么?何时应优先选择另一个? (欢迎提供参考。尽管我看了几本教科书并在线搜索了材料,但是我还是无法找到这两个测试的任何比较。我能够分别找到每个测试的描述,但是我感兴趣的是两者的比较。)

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
如何测试残差的自相关?
我有一个包含两列的矩阵,这两列具有很多价格(750)。在下图中,我绘制了线性回归的残差: lm(prices[,1] ~ prices[,2]) 看图像,似乎是残差的很强的自相关。 但是,如何测试这些残差的自相关性是否强?我应该使用什么方法? 谢谢!

3
自相关的目的是什么?
为什么自相关如此重要?我已经理解了它的原理(我想..),但是也有没有自相关发生的例子,我想知道:自然界中的所有事物难道不是自相关的吗?最后一个方面的目的更多是对自相关本身的一般理解,因为,正如我提到的那样,宇宙中的每个状态不是都依赖于前一个状态吗?

4
R中具有自相关误差的简单线性模型
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 8个月前关闭。 如何在R中具有自相关误差的线性模型拟合?在stata中,我将使用prais命令,但找不到R等效项...

4
ACF和PACF公式
我想创建一个用于从时间序列数据中绘制ACF和PACF的代码。就像从minitab生成的图一样(如下)。 我已经尝试搜索该公式,但是我仍然不太了解它。 您介意告诉我该公式以及如何使用它吗? 上面的ACF和PACF图上的水平红线是什么?公式是什么? 谢谢,

1
即使在具有适当相关结构的模型中,自相关残差模式仍然存在吗?如何选择最佳模型?
语境 该问题使用R,但与一般统计问题有关。 我正在分析死亡率因素(由于疾病和寄生虫引起的死亡率百分比)对蛾类种群随时间推移的增长率的影响,其中每年从12个地点采样幼虫种群,为期8年。人口增长率数据显示出随时间变化的清晰但不规则的周期性趋势。 一个简单的广义线性模型的残差(增长率〜%疾病+%寄生病+年)随着时间的推移显示出相似的清晰但不规则的周期性趋势。因此,同样形式的广义最小二乘模型也适用于具有适当相关结构的数据,以处理时间自相关,例如复合对称性,自回归过程阶数1和自回归移动平均相关结构。 所有模型均包含相同的固定效果,使用AIC进行比较,并通过REML进行拟合(以允许通过AIC比较不同的相关结构)。我正在使用R软件包nlme和gls函数。 问题1 当相对于时间绘制时,GLS模型的残差仍显示几乎相同的周期性模式。即使在精确说明自相关结构的模型中,这种模式也会一直存在吗? 我在第二个问题下面模拟了R中的一些简化但相似的数据,该问题基于我目前对评估模型残差中的时间自相关模式所需的方法的了解而显示,现在我知道这是错误的(请参阅答案)。 问题2 我已经为GLS模型拟合了所有可能的合理相关结构,但是实际上没有一个比没有任何相关结构的GLM更好:只有一个GLS模型略胜一筹(AIC分数= 1.8低),而其余所有模型更高的AIC值。但是,只有当所有模型都由REML拟合时才是这种情况,而GLS模型显然要好得多,而不是ML,但是我从统计资料中了解到,出于某些原因,您只能使用REML来比较具有不同相关结构和相同固定效果的模型我不会在这里详述。 鉴于数据具有明显的时间自相关性质,如果没有模型比简单的GLM更好,那么假设我使用的是合适的方法,那么最合适的方法来决定使用哪个模型进行推断(我最终想使用AIC比较不同的变量组合)? Q1“模拟”探索具有和没有适当相关结构的模型中的残差模式 生成具有“时间”的循环效应和“ x”的正线性效应的模拟响应变量: time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) y应该在“时间”上显示出具有随机变化的周期性趋势: plot(time,y) 与带有随机变化的'x'的正线性关系: plot(x,y) 创建一个简单的线性加法模型“ y〜time + x”: require(nlme) m1 <- gls(y ~ time + x, method="REML") 如预期的那样,该模型在针对“时间”绘制时,在残差中显示出清晰的周期性模式: plot(time, m1$residuals) …

1
如何分析纵向计数数据:在GLMM中考虑时间自相关?
您好统计大师和R编程向导, 我对将动物捕获建模为环境条件和一年中的一天感兴趣。作为另一项研究的一部分,我统计了三年中约160天的捕获次数。在这几天的每一天,我都会获得温度,降雨,风速,相对湿度等信息。由于是从相同的5个地块重复收集数据,因此我将其用作随机效应。 我的理解是,nlme可以轻松解决残差中的时间自相关,但不能处理lme4这样的非高斯链接函数(无法处理自相关吗?)。目前,我认为在log(count)的R中使用nlme包可能会起作用。所以我现在的解决方案是运行类似的命令: m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random = ~1|plot, correlation = corARMA(p = 1, q = 1, form = ~DOY|plot), data = Data) DOY =一年中的一天。最终模型中可能会有更多的交互,但这是我的基本想法。我也可能尝试用类似的方法进一步对方差结构建模 weights = v1Pow 我不确定Poisson混合模型回归或其他方法是否有更好的方法?我刚刚在Kedem和Fokianos的“时间序列分析的回归模型”的第4章中找到了数学讨论。目前,这超出了我一点,尤其是在应用程序中(用R编码)。我在Zuur等人中也看到了MCMC解决方案。BUGS语言的混合效果模型书(Chp 23)(使用winBUGS或JAG)。那是我最好的选择吗?R中是否有一个简单的MCMC软件包可以解决这个问题?我不太了解GAMM或GEE技术,但是如果人们认为他们可以提供更好的见解,我将愿意探索这些可能性。我的主要目标是创建一个模型,以在给定环境条件下预测动物的捕获量。其次,我想解释一下动物对它们活动的反应。 任何关于最佳处理方式(从哲学上),如何在R或BUGS中进行编码的想法都将受到赞赏。我是R和BUGS(winBUGS)的新手,但正在学习。这也是我第一次尝试解决时间自相关。 谢谢,丹


3
选择具有最强相关性的数据点子集的自动化程序?
是否有一些标准程序(以便可以引用它作为参考)从具有最大相关性(仅二维)的较大池中选择数据点的子集? 例如,假设您有100个数据点。您需要一个40个点的子集,这些子集在X和Y维度上可能具有最强的相关性。 我意识到编写代码来做到这一点相对简单,但是我想知道是否有任何资料可以引用?

1
Newey-West(1987)和Hansen-Hodrick(1980)的比较
问题:使用Newey-West(1987)和Hansen-Hodrick(1980)标准错误之间的主要区别和相似之处是什么?在哪些情况下应优先选择其中一种? 笔记: 我确实知道每个调整程序如何工作;但是,无论是在网上还是在我的教科书中,我还没有找到可以比较它们的文档。欢迎参考! Newey-West往往被用作“包罗万象”的HAC标准错误,而Hansen-Hodrick经常在数据点重叠的情况下出现(例如,请参见此问题或此问题)。因此,我的问题的一个重要方面是,关于Hansen-Hodrick的事情是否比Newey-West 更适合处理重叠数据?(毕竟,重叠的数据最终会导致与序列相关的错误术语,Newey-West也要处理。) 作为记录,我知道这个类似的问题,但是它提出的条件相对较差,被否决了,最终我所问的问题没有得到回答(仅与编程相关的部分得到了回答)。

1
什么是“目标最大可能性期望”?
我正在尝试了解Mark van der Laan的一些论文。他是伯克利大学的理论统计学家,致力于解决与机器学习显着重叠的问题。对我来说(除深层数学运算之外)一个问题是,他经常最终会使用完全不同的术语来描述熟悉的机器学习方法。他的主要概念之一是“目标最大可能性期望”。 TMLE用于分析非对照实验中的删失观测数据,即使存在混杂因素也可以进行效果评估。我强烈怀疑许多相同的概念在其他领域以其他名称存在,但是我对它的理解还不够深入,无法直接将其与任何事物匹配。 尝试将差距缩小到“计算数据分析”的方法是: 进入数据科学时代:目标学习和统计与计算数据分析的集成 这里是统计学家的简介: 基于目标最大似然的因果推断:第一部分 从第二个开始: 在本文中,我们针对多个时间点干预的因果效应开发了一种特定的针对性最大似然估计器。这涉及使用基于损失的超级学习来获得G计算公式的未知因子的初始估计,然后将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子,用最大似然估计来估计波动参数,并迭代初始因子的此更新步骤,直到收敛为止。这个迭代目标最大似然更新步骤使得因果效应的最终估计量在初始估计量是否一致的情况下也是一致的,因此具有两倍的鲁棒性,或最佳波动函数的估计值是一致的。如果正确地指定了因果图中所介入的节点的条件分布,则可以正确地指定最佳波动函数。 用他的术语来说,“超级学习”是具有理论上合理的非负加权方案的整体学习。但是他的意思是“将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子”。 或将其分为三个不同的问题,TMLE在机器学习中是否具有并行性?什么是“最不利的参数子模型”?其他领域的“波动函数”是什么?

1
为什么添加滞后效应会增加贝叶斯分层模型中的平均偏差?
背景:我目前正在做一些比较各种贝叶斯层次模型的工作。数据是参与者i和时间j的幸福感的数字量度。我大约有1000位参与者,每位参与者5到10个观察值。ÿ我Ĵÿ一世Ĵy_{ij}一世一世iĴĴj 像大多数纵向数据集一样,我希望看到某种形式的自相关,其中时间上较近的观测值比距离较远的观测值具有更大的相关性。简化几件事,基本模型如下: ÿ我Ĵ〜ñ(μ我Ĵ,σ2)ÿ一世Ĵ〜ñ(μ一世Ĵ,σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) 我在比较无滞后模型的地方: μ我Ĵ= β0 我μ一世Ĵ=β0一世\mu_{ij} = \beta_{0i} 使用滞后模型: μ我Ĵ= β0 我+ β1个(yi (j − 1 )- β0 我)μ一世Ĵ=β0一世+β1个(ÿ一世(Ĵ-1个)-β0一世)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) 其中是一个人级的均值和ββ0 我β0一世\beta_{0i}β1个β1个\beta_1ÿ我0ÿ一世0y_{i0} 我得到的结果表明: 滞后参数约为0.18,95%CI [.14,.21]。即非零 当模型中包含滞后时,平均偏差和DIC都会增加数百 后验预测检查表明,通过包括滞后效应,模型可以更好地恢复数据中的自相关 因此,总的来说,非零滞后参数和后验预测表明滞后模型更好。但均值偏差和DIC表明无滞后模型更好。这让我感到困惑。 我的一般经验是,如果添加有用的参数,则至少应减少平均偏差(即使在复杂度降低后DIC也不会得到改善)。此外,滞后参数的零值将实现与无滞后模型相同的偏差。 题 为什么即使滞后参数不为零并且增加滞后效应,也可以增加贝叶斯分层模型中的平均偏差,从而改善后验预测性检查? 最初的想法 我已经做了很多 收敛性检查(例如,查看轨迹图;检查跨链和跨运行的偏差结果的变化),并且两个模型似乎都收敛于后验。 我已经执行了代码检查,将滞后效应强制为零,这确实恢复了无滞后模型偏差。 我还研究了平均偏差减去惩罚值,该偏差值应使偏差超出预期值,这也使滞后模型显得更糟。 β0iβ0i\beta_{0i} 我如何估计第一次观察之前的隐含时间点可能存在一些问题。 在此数据中,滞后效应可能只是微弱的 我尝试使用lme与的最大相似度来估计模型correlation=corAR1()。滞后参数的估计值非常相似。在这种情况下,与没有滞后的模型相比,滞后模型具有更大的对数可能性和较小的AIC(大约100)(即,它表明滞后模型更好)。因此,这加强了这样的想法,即增加滞后还应降低贝叶斯模型中的偏差。 …

1
什么时候需要在回归模型中包括因变量的滞后,哪个滞后?
我们要用作因变量的数据如下所示(它是计数数据)。我们担心,由于它具有周期性成分和趋势结构,因此回归会以某种方式出现偏差。 如果有帮助,我们将使用负二项式回归。数据是一个平衡面板,每个人(状态)一个虚拟。所示图像显示了所有状态的因变量之和,但仅大多数状态具有类似的行为。我们正在考虑一种固定效应模型。因变量之间的相关性不是很高,研究的一部分是在这些变量之间找到一个意料之外的关系,因此弱关系实际上是件好事。 不包括因变量的滞后变量的确切风险是什么? 如果需要包括一个,是否有测试可以知道哪个。 正在R中执行。 注意:我确实阅读了这篇文章,但对我们的问题没有帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.