Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

6
可疑地使用信号处理原理来识别趋势
我建议尝试在一些非常嘈杂的长期数据中找到趋势。数据基本上是在大约8个月的时间内每周对大约5mm的物体进行测量。数据精确到1毫米,并且非常嘈杂,每周定期更改+/- 1或2毫米。我们只有到最接近毫米的数据。 我们计划使用一些具有快速傅立叶变换的基本信号处理来从原始数据中分离出噪声。基本的假设是,如果我们镜像数据集并将其添加到现有数据集的末尾,则可以创建数据的完整波长,因此我们的数据将以快速傅立叶变换显示,我们希望可以将其分离出来。 考虑到这对我来说有点怀疑,这是值得推荐的方法,还是镜像和附加我们的数据集的方法在某种程度上有根本性的缺陷?我们正在寻找其他方法,例如也使用低通滤波器。

1
ARIMA vs Kalman过滤器-它们如何相关
当我开始阅读有关卡尔曼滤波器的文章时,它认为这是ARIMA模型的一种特例(即ARIMA(0,1,1))。但实际上似乎情况更加复杂。首先,ARIMA可用于预测,而卡尔曼滤波器可用于滤波。但是它们不是紧密相关吗? 问题: ARIMA和卡尔曼滤波器之间是什么关系?一个正在使用另一个吗?是另一种特例吗?

3
使用外部变量预测时间序列数据
目前,我正在一个项目中进行时间序列数据(每月数据)的预测。我正在使用R进行预测。我有1个因变量(y)和3个独立变量(x1,x2,x3)。y变量具有73个观测值,其他3个变量也具有观测值(alos 73)。从2009年1月到2015年1月。我检查了相关性和p值,将其放入模型中非常重要。我的问题是:如何使用所有自变量进行良好的预测?我没有这些变量的将来值。假设我想预测两年(2017年)后我的y变量。我怎样才能做到这一点? 我尝试了以下代码: model = arima(y, order(0,2,0), xreg = externaldata) 我可以使用此代码对两年内的y值进行预测吗? 我还尝试了回归代码: reg = lm(y ~ x1 + x2 + x3) 但是如何花时间在这段代码中?我如何预测我的y值将超过2年?我是统计和预测的新手。我已经进行了一些读取并查看了滞后值,但是如何在模型中使用滞后值进行预测呢? 实际上,我的总体问题是,如何使用没有未来价值的外部变量来预测时间序列数据?

1
测试夏普比率的重要性
测试夏普比率或信息比率的重要性的正确方法是什么?夏普比率将基于各种股指,并且可能具有可变的回溯期。 我看到的一种解决方案只是应用了学生t检验,而df设置为回溯期的长度。 由于以下原因,我不愿采用上述方法: 我认为t检验对偏斜敏感,但是股本收益通常会产生负偏斜。 使用对数收益计算的平均收益小于使用简单收益计算的平均收益。我认为,与基于对数收益的夏普比率相比,基于收益的简单夏普比率更有可能被注册为重要资产,但是底层资产收益在技术上是相同的。 如果回溯期很小(即样本量很小),则t检验可能是适当的,但是使用其他检验在什么阈值下有意义? 我的第一个倾向是避免使用学生t分布,而是创建一个基于非对称配电,我已经测试读取已被证明是股市回报的一个非常接近的近似,允许在峰度和偏度控制。 我的第二个倾向是看非参数测试,但是由于使用经验有限,我不确定从哪里开始以及应该避免的陷阱。 我是否在考虑这个问题,是否与我的担忧无关?


3
使用Python进行时间序列异常检测
我需要对几个时间序列数据集执行异常检测。我以前从未做过此事,希望能得到一些建议。我对python非常满意,因此我希望在其中实现解决方案(我的大部分代码在其他工作中都是python)。 数据描述:在过去的两年左右(即只有24-36个时间段)才刚刚开始收集每月的时间序列数据。从本质上讲,每月有多个指标被多个客户监视。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... 这就是我的想法:将数据放入数据框(熊猫),然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值,则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。 任何建议,以充实这一想法,将不胜感激。我知道这个问题有点抽象,对此我深表歉意。

2
如何解释ACF和PACF图
我只想检查一下我是否正确解释了ACF和PACF图: 数据对应于在实际数据点之间生成的误差和使用AR(1)模型生成的估计值。 我在这里看了答案: 通过ACF和PACF检查估算ARMA系数 阅读后,似乎错误不是自相关的,但我只是想确定,我担心的是: 1.)第一个错误就在边界上(在这种情况下,我应该接受还是拒绝在滞后1存在明显的自相关)? 2.)线代表95%的置信区间,并且考虑到存在116个滞后,我希望不超过(0.05 * 116 = 5.8,我向上舍入为6个)6个滞后。对于ACF就是这种情况,但对于PACF大约有10个例外。如果把那些包括在边界上,那更像是14?这仍然表明没有自相关吗? 3.)我是否应该从一个事实中了解到所有违反95%置信区间的情况都是不利的?

3
stl或分解哪个更好?
我正在使用R进行时间序列分析。我必须将数据分解为趋势,季节和随机分量。我有3年的每周数据。我在R stl()和中发现了两个函数decompose()。我读过stl()对乘法分解不利。谁能告诉我在什么情况下可以使用这些功能?
10 r  time-series 

3
引导残差:我做对了吗?
首先:据 我了解,引导残差的工作方式如下: 使模型适合数据 计算残差 重新采样残差并将其添加到1。 使模型适合3中的新数据集。 重复n次数,但始终将重新采样的残差添加到从1开始的拟合中。 到目前为止,对吗? 我想做的是稍微不同的事情: 我想为估计一些环境变量的算法估计参数和预测不确定性。 我所拥有的是该变量的无错误时间序列(来自模拟)x_true,在其中添加了一些噪声,x_noise以生成综合数据集x。然后,我尝试通过将平方和sum((x_estimate - x_true)^2)(!not x_estimate - x!)作为目标函数拟合我的算法来找到最佳参数。为了查看我的算法如何执行并创建参数分布的样本,我想重新采样x_noise,将其添加到x_true,再次拟合我的模型,冲洗并重复。这是评估参数不确定性的有效方法吗?我可以将自举数据集的拟合解释为预测不确定性,还是必须遵循上面发布的过程? / edit:我认为我还没有真正弄清楚模型的作用。可以认为它本质上类似于降噪方法。它不是预测模型,而是一种试图提取嘈杂的环境数据时间序列的基础信号的算法。 / edit ^ 2:对于在那里的MATLAB用户,我写下了一些我所要表达的快速且肮脏的线性回归示例。 我认为这是残差的“常规”自举(如果我错了,请纠正我):http : //pastebin.com/C0CJp3d1 这就是我想做的:http : //pastebin.com/mbapsz4c

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
关于样本自协方差函数的问题
我正在阅读时间序列分析书,样本自协方差的公式在书中定义为: γˆ(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)γ^(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) 与对于。是平均值。γˆ(−h)=γˆ(h)γ^(−h)=γ^(h)\widehat{\gamma}(-h) = \widehat{\gamma}(h)\;h=0,1,...,n−1h=0,1,...,n−1\;h = 0,1, ..., n-1x¯x¯\bar{x} 有人可以直观地解释为什么我们将总和除以而不是吗?这本书解释说,这是因为上面的公式是一个非负的确定函数,因此最好除以,但这对我来说还不清楚。有人可以证明这一点,还是可以举例说明?nnnn−hn−hn-hnnn 对我而言,起初直观的事情就是除以。这是对自协方差的无偏估计吗?n−hn−hn-h

2
时间序列分析的历史有哪些好的资源?
我已经在stats.stackexchange上检查了这个问题的答案:什么是提供统计历史的优质资源? 确实,斯蒂格勒的书“桌子上的统计数据”看起来很棒,我很期待阅读。但是我对现代ARIMA模型的开发更感兴趣。 我想我记得曾经听说过,在尝试用二战前后的大炮预测随机误差时,已经取得了很大的进步。而且,当然,在整个千年的后半段,天文学家在某种程度上都在利用某种时间序列来理解天体的运动。但是,我不记得我听说过时间序列在炮兵中的应用,并且我有物理学背景,而且我真的不知道天文学家正在使用哪种统计方法。 因此,我想听听您认为对时间序列方法的发展影响最大的历史影响是什么,例如,它们主要是受到金融,国防,地质/地球物理学的刺激,还是所有这些以及更多因素的结合?是否有关于ARIMA历史的资料丰富的书籍或网站?

3
如何找到时间序列之间的相似性?
在以下示例中,我有一个数据框,该数据框由在海洋中5个深度处记录的水温测量值的时间序列组成,其中in的每个值Temp对应于in的日期DateTime和in 的深度Depth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = …

2
什么是预测受(0,1)约束的百分比的时间序列模型?
这必定会发生-预测介于0和1之间的事物。 在我的系列文章中,我怀疑有一个自动回归的成分,也有一个均值回归的成分,所以我希望我可以像ARIMA那样解释一些东西,但是我不希望它将来会飙升到1000% 。 您是否仅将ARIMA模型用作逻辑回归中的参数以将结果限制在0和1之间? 或者我在这里了解到Beta回归更适合(0,1)数据。我如何将其应用于时间序列?是否有好的R软件包或Matlab函数使拟合和预测变得容易?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.