Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

2
如何在R中使用简单的指数平滑?
我是R的初学者,能否请您解释一下如何在R Forecast的预测包中使用ses ?我想选择初始周期数和平滑常数。 d <- c(3,4,41,10,9,86,56,20,18,36,24,59,82,51,31,29,13,7,26,19,20,103,141,145,24,99,40,51,72,58,94,78,11,15,17,53,44,34,12,15,32,14,15,26,75,110,56,43,19,17,33,26,40,42,18,24,69,18,18,25,86,106,104,35,43,12,4,20,16,8) 我有70个周期,我想将40个周期用于初始样本,将30个周期用于样本外。 ses(d, h=30, level=c(80,95), fan=FALSE,initial=c("simple"), alpha=.1) 这是对的吗?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 



2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
挑战性数据集的哪种模型?(数百个具有大量嵌套的时间序列)
我要分析的数据集非常复杂,我找不到适合的解决方案。 这是东西: 1.原始数据实质上是昆虫歌曲的录音。每首歌曲均由多个突发组成,而每个突发均由子单元组成。所有个人都记录了5分钟。个体之间的猝发数及其在录音中的位置以及每个猝发的子单元数可能会非常不同。 2.我有每个子单元的载波频率(基本频率),这就是我要分析的内容。 我的问题: 1.突发中的频率显然不是独立的(尽管它相当稳定,但是子单元n-1的频率会影响子单元n)。 2.突发在录音中也不是独立的。 3.随着频率随着时间的推移而下降,它们变得更加独立(个人厌倦了唱歌,因此歌曲的频率越来越低)。下降似乎是线性的。 4.嵌套=我在A和B两个位置有3个重复种群。所以我有A1,A2,A3和B1,B2,B3。 我想做的是: 1.表征两个地点之间的频率差异(进行统计测试) 2.刻画两个位置之间的频率下降特性(看看其中之一下降得更快) 怎么做: 那就是为什么我需要帮助:我不知道。看来,我的案例结合了通常看不到的问题。我已经读过关于混合模型,关于GAM,关于ARIMA,随机和固定效果的信息,但是我不能真正确定做到这一点的最佳方法。当我绘制它的频率(频率〜子单元编号n)时,两个位置之间的差异非常明显。我还必须考虑其他变量,例如温度(使频率更高)等。 我想到了: 将个体嵌套在其来源的副本中,然后将副本嵌套在位置(单个/副本/位置)中。 使用随机的“突发”效果,因此我考虑了每个突发中的可变性。 使用固定的“记录中的突发位置”效果来测量频率下降(希望它实际上是线性的)。 正确吗? 我可以在这种情况下使用一种特殊类型的模型吗?

3
一般加性泊松模型问题中的样条df选择
我一直在使用SAS的泊松通用加性模型拟合一些时间序列数据PROC GAM。一般来说,我一直使用它的内置通用交叉验证程序为我的单个样条生成至少一个体面的“起点”,这是时间的非线性函数以及单个参数项(其实很感兴趣)。 到目前为止,除了我的数据集之一之外,它的运行相当流畅。该数据集中有132个观测值,GCV建议使用128个自由度的样条曲线。看来...错了。错了 更重要的是,它也不是很稳定。我尝试了第二种方法,当参数项的估计值停止更改时,使用“估计更改”条件之类的方法停止添加自由度,因为如果没有什么不同,为什么还要继续添加控制权? 问题在于估算值根本不稳定。我尝试了以下自由度,如您所见,参数项疯狂地反弹: DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 0.92161 15 1.88763 20 1.98869 30 2.5223 40-60 had convergence issues 70 7.5497 80 7.22267 90 6.71618 100 5.83808 110 4.61436 128 1.32347 …

1
季节性调整后的每月逐月增长以及潜在的每周季节性
作为附带的兴趣,我一直在探索预测时间序列(尤其是使用R)。 就我的数据而言,我有每天的访问次数,可以追溯到将近4年的每天。在此数据中,有一些不同的模式: 周一至周五的访问量很多(周一/周二最高),但周六至周日的访问量则大大减少。 一年中的某些时段下降(例如,美国假期前后的访问量减少,夏季显示出较少的增长) 年比显着增长 能够使用这些数据来预测未来的一年,并使用它来进行季节性调整后的逐月增长,这将是很好的。每月查看的主要内容是: 某些月份的星期一/星期二会比其他月份要多(而且多年以来也不一致)。因此,需要对平日较多的一个月进行相应的调整。 探索周似乎也很困难,因为周编号系统会根据年份从52-53更改,并且似乎ts无法解决这一问题。 我正在考虑为一个月的工作日取平均值,但是结果得出的单位有点奇怪(平均工作日访问次数的增长),并且会删除有效的数据。 我觉得这种数据在时间序列中很常见(例如,办公楼中的用电量可能是这样的),有人对如何建模有任何建议,尤其是在R中? 我正在使用的数据非常简单,它开始如下: [,1] 2008-10-05 17607 2008-10-06 36368 2008-10-07 40250 2008-10-08 39631 2008-10-09 40870 2008-10-10 35706 2008-10-11 18245 2008-10-12 23528 2008-10-13 48077 2008-10-14 48500 2008-10-15 49017 2008-10-16 50733 2008-10-17 46909 2008-10-18 22467 并以这种方式一直延续到现在,总体呈增长趋势,在美国假期周前后有所下降,而夏季的增长总体上放缓。

4
使用Matlab自相关和神经网络时,如何处理时间序列数据中的缺口/ NaN?
我有一个时间序列的测量值(高度一维序列)。在观察期内,测量过程下降了一些时间点。因此,所得数据是带有NaN的矢量,其中数据中存在间隙。使用MATLAB,这在计算自相关(autocorr)和应用神经网络(nnstart)时给我带来了问题。 这些差距/ NaN应该如何处理?我应该将它们从载体中删除吗?还是将其条目替换为插值?(如果是这样,那么在MATLAB中如何操作)

1
当预测模型中的响应变量不同时,如何合并预测?
介绍 在预测组合中,一种流行的解决方案是基于某些信息准则的应用。以对模型估计的Akaike准则为例,可以从计算的差,然后将RP_j = e ^ {(AIC ^ *-AIC_j)/ 2}解释为模型j的相对概率是真实的。然后将权重定义为一个我CĴAICjAIC_jĴjj一个我CĴAICjAIC_j一个我C∗=分Ĵ一个我CĴAIC∗=minjAICjAIC^* = \min_j{AIC_j}[RPĴ=Ë(一我C∗− A ICĴ)/ 2RPj=e(AIC∗−AICj)/2RP_j = e^{(AIC^*-AIC_j)/2}Ĵjj wĴ=[RPĴ∑Ĵ[RPĴwj=RPj∑jRPjw_j = \frac{RP_j}{\sum_j RP_j} 问题 我试图克服的一个困难是,这些模型是根据不同转换的响应(内生)变量估算的。例如,某些模型基于年增长率,另一种模型基于季度间增长率。因此,提取的一个我CĴAICjAIC_j值不能直接比较。 尝试过的解决方案 由于重要的是一个我CAICAIC的差异,因此可以采用基本模型的一个我CAICAIC(例如,我尝试提取lm(y~-1)不带任何参数的模型),该AIC对于响应变量转换是不变的,然后比较第Ĵjj个模型与AIC的差异。基本模型一个我CAICAIC。然而在这里似乎不足之处遗迹-区别是由响应变量的转型的影响。 结束语 注意,可以使用“根据相同的响应变量估计所有模型”之类的选项,但是非常耗时。如果没有其他方法可以解决问题,我想在做出痛苦的决定之前先寻求快速的“治愈”方法。

2
如果变量是自相关的,我可以相信回归吗?
这两个变量(因变量和自变量)均显示自相关效应。数据是时间序列且固定的 当我运行回归残差似乎不相关。我的Durbin-Watson统计量大于上临界值,因此有证据表明误差项没有正相关。同样,当我为错误绘制ACF时,看起来那里没有相关性,并且Ljung-Box统计量小于临界值。 我可以相信我的回归输出吗,t统计量可靠吗?

2
最先进的方法来查找时间序列的零均值部分
我有嘈杂的时间序列,我需要将其细分为平均值为零的那些部分和平均值为零的那些部分。尽可能准确地找到边界很重要(显然边界的确切位置有点主观)。我认为可以修改cusum变体来实现此目的,但是因为cusum主要是要找到单个更改,从而使整个细分策略完全无法解决。 我敢肯定,已经对此问题进行了很多研究,但未能找到它。 PS这些时间序列中的数据量非常大,即多达数亿个样本,单个样本可以是具有数百个分量的向量,因此可以合理快速计算的方法是一个重要因素。 PPS没有细分标签,因此没有分类标签。

1
PACF手动计算
我正在尝试复制SAS和SPSS对部分自相关函数(PACF)的计算。在SAS中,它是通过Proc Arima生产的。PACF值是感兴趣序列在该序列的滞后值上的自回归系数。我感兴趣的变量是sales,所以我计算lag1,lag2 ... lag12并运行以下OLS回归: Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt −12。Yt=a0+一个1个ÿŤ-1个+一个2ÿŤ-2+一个3ÿŤ-3+…+一个12ÿŤ-12。Y_t=a_0+a_1Y_{t-1}+a_2Y_{t-2}+a_3Y_{t-3}+\ldots+a_{12}Y_{t-12}. 不幸的是,我得到的系数甚至不接近SAS或SPSS提供的PACF(滞后1至12)。有什么建议么?有什么不对?我想到的是,此模型的最小二乘估计可能不合适,也许应该使用另一种估计技术。 提前致谢。


1
R中ACF图中的虚线
我正在阅读Cowpertwait和Metcalfe的《 R入门时间序列》这本书。在第36页上,其行位于:−1/n±2/n−−√−1/n±2/n-1/n \pm 2/\sqrt{n}。我在这里阅读过R论坛,其行位于。 ±1.96/n−−√±1.96/n\pm 1.96/\sqrt{n} 我运行了以下代码: b = c(3,1,4,1) acf(b) 并且我发现这些行看起来好像是。那么,显然这本书是错的吗?还是我误读了所写的内容?作者在谈论的内容略有不同吗?±1.96/4–√±1.96/4\pm 1.96/\sqrt{4} *请注意,我对1.96对2的次要细节差异不感兴趣。我假设这只是作者使用2 sd与实际1.96 sd的经验法则。 编辑:我运行了此模拟: acf1 = 0 acf2 = 0 acf3 = 0 for(i in 1:5000){ resids= runif(1000) residsacf = c(acf(resids,plot= FALSE)) acf1[i] = residsacf$acf[2,,1] acf2[i] = residsacf$acf[3,,1] acf3[i] = residsacf$acf[4,,1] } meanacf1 = mean(acf1) meanacf2 = …
9 r  time-series 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.