Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

3
时间序列预测的数据增强策略
我正在考虑两种策略来对时间序列进行“数据增强”。 首先,有一点背景知识。预测时间序列下一步的预测变量PPP通常取决于以下两个函数:时间序列的过去状态,以及预测变量的过去状态:{ 一一世}{一个一世}\lbrace A_i\rbrace P({ 甲我≤ Ť - 1} ,P小号t − 1)P({一个一世≤Ť-1个},P小号Ť-1个)P(\lbrace A_{i\leq t-1}\rbrace,P_{S_{t-1}}) 如果我们想调整/训练我们的系统以获得一个好的,那么我们将需要足够的数据。有时可用数据还不够,因此我们考虑进行数据扩充。PPP 第一种方法 假设我们有时间序列,具有。并且还假设我们有满足以下条件:。{ 一一世}{一个一世}\lbrace A_i \rbrace1个≤ 我≤ Ñ1个≤一世≤ñ1 \leq i \leq nϵϵ\epsilon0 &lt; ϵ &lt; | 一个我+ 1− A一世| ∀我∈{1,...,Ñ}0&lt;ϵ&lt;|一个一世+1个-一个一世|∀一世∈{1个,…,ñ}0<\epsilon < |A_{i+1} - A_i| \forall i \in \lbrace 1, \ldots,n\rbrace 我们可以构造一个新的时间序列,其中是分布。{ B一世= A一世+ r一世}{乙一世=一个一世+[R一世}\lbrace B_i = …


3
是否在线性组合下保留平稳性?
想象一下,我们有两个固定的时间序列过程,产生:。xt,ytxt,ytx_t,y_t 是,也是静止的?&ForAll; α ,β &Element; [Rzt=αxt+βytzt=αxt+βytz_t=\alpha x_t +\beta y_t∀α,β∈R∀α,β∈R\forall \alpha, \beta \in \mathbb{R} 任何帮助,将不胜感激。 我会说是的,因为它具有MA表示形式。


1
如何在预测中考虑假期的影响
我有一个相当可预测的每日时间序列和每周季节性。在没有假期的情况下,我能够提出看起来很准确的预测(通过交叉验证确认)。但是,当有假期时,我会遇到以下问题: 尽管所有历史假期均为0,但我在预测中得到的假期非零数字。但这实际上不是主要问题。问题是... 由于假期中不进行的处理会“溢出”到假期后的几天,因此,由于这些异常值似乎是短期的创新,因此无法使用简单的虚拟变量进行削减。如果没有每周的季节性变化,我可能会得出一个估计值,用于在假期后的五天左右的时间内分配假期中未处理的数据(如您如何创建反映假期的超前和滞后影响的变量中建议的/时序分析中的日历效果?)。但是,“溢出”的分布取决于假期发生的星期几,以及假期是否是圣诞节或感恩节,那里的订单订购率低于一年中的其余时间。 以下是我的交叉验证的一些快照,这些快照显示了在一周的不同日期出现的假期的预测(蓝色)与实际(红色)结果: 我还担心圣诞节的影响取决于它落在一周中的哪一天,而我只有六年左右的历史数据。 对于在预测的背景下如何应对这些类型的创新异常值,是否有人有任何建议?(很遗憾,我无法共享任何数据)

4
可以使用ARIMA对趋势平稳序列进行建模吗?
我对使用ARIMA(X)进行建模所需的平稳序列有疑问/困惑。我在推理(干预效果)方面考虑的更多,但我想知道预测与推理是否会对响应产生任何影响。 题: 我阅读的所有介绍性资源都指出该系列需要固定下来,这对我来说很有意义,这就是有马中的“ I”出现的地方(与众不同)。 让我感到困惑的是,ARIMA(X)中趋势和漂移的使用以及对平稳需求的暗示(如果有)。 使用常数/漂移项和/或趋势变量作为外生变量(即加“ t”作为回归变量)是否否定了序列是平稳的要求?答案是否不同取决于序列是否具有单位根(例如adf检验)或具有确定性趋势但没有单位根? 要么 在使用ARIMA(X)之前,通过微分和/或去趋势使序列始终保持静止吗?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds &lt;- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
汇总中保留哪些统计信息?
如果我们有一个较长的高分辨率时间序列,并且有很多杂讯,通常有必要将数据聚合为较低的分辨率(例如,从每日到每月的值),以更好地了解正在发生的事情,从而有效地去除一些噪音。 我已经看过至少一篇论文,然后将一些统计信息应用于汇总数据,包括对单独变量进行线性回归的。那有效吗?我本来以为,由于降低了噪声,平均过程会稍微修改结果。r2r2r^2 通常,是否可以将某些统计信息应用于汇总的时间序列数据,而其他统计信息则不能?如果是这样,哪个?是线性组合的,也许吗?

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

2
时间序列与回归之间的关系和差异?
时间序列和回归之间的关系和区别是什么? 对于模型和假设,回归模型假设输入变量的不同值在输出变量之间具有独立性,而时间序列模型不是,这是否正确?还有什么其他区别? 有关方法,请访问达灵顿网站 时间序列分析有多种方法,但是最著名的两种方法是回归方法和Box-Jenkins(1976)或ARIMA(自回归综合移动平均)方法。本文档介绍了回归方法。我认为回归方法远远优于ARIMA,主要有以下三个原因 我不太了解网站上的时间序列“回归方法”是什么,它与Box-Jenkins或ARIMA方法有何不同。我很高兴有人可以对这些问题发表一些见解。 感谢致敬!

1
时间序列数据的实时归一化算法?
我正在研究一种算法,该算法将从多个传感器流中获取最新数据点的向量,并将欧几里德距离与以前的向量进行比较。问题在于,不同的数据流来自完全不同的传感器,因此采用简单的欧几里德距离将大大过分强调某些值。显然,我需要某种方式来规范化数据。但是,由于该算法是设计为实时运行的,因此在规范化过程中,我无法整体使用有关任何数据流的任何信息。到目前为止,我一直在跟踪每个传感器在启动阶段看到的最大值(前500个数据向量),然后将来自该传感器的所有将来数据除以该值。这工作出奇地好,但是感觉很不雅致。 我并没有为找到一个预先存在的算法而感到幸运,但是也许我只是没有在正确的地方寻找。有人知道吗?或有什么想法?我看到一个建议使用移动平均值(可能是由Wellford的算法计算得出的),但是如果我这样做了,那么相同值的多个读数将不会显示为相同,这似乎是一个很大的问题,除非我缺少一些东西。任何想法表示赞赏!谢谢!

1
使用机器学习学习预测财务时间序列的第一步
我正在尝试掌握如何使用机器学习来预测未来的财务时间序列1或更多步骤。 我有一个包含描述性数据的财务时间序列,我想形成一个模型,然后使用该模型预测未来的n步。 到目前为止,我一直在做的是: getSymbols("GOOG") GOOG$sma &lt;- SMA(Cl(GOOG)) GOOG$range &lt;- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 880.54 872.16 …

2
我可以降低趋势并改变以使一系列静止吗?
我有一个随着时间推移而明显增加的数据集(一种货币的汇率,过去20年的月度数据),我的问题是:如果数据本身处于下降趋势,我是否可以对数据进行趋势去除然后再进行修正以使其保持不变没有做到这一点?如果是的话,这是否会被视为两次差异,或者只是被去趋势化而一次差异?

1
反季节化计数数据
我在R中使用stl()将计数数据分解为趋势,季节和不规则成分。结果趋势值不再是整数。我有以下问题: stl()是使计数数据反季节化的合适方法吗? 由于结果趋势不再是整数值,因此我可以使用lm()建模趋势成分吗?

3
时间序列上的STL具有缺失值以进行异常检测
我正在尝试在气候数据的时间序列中检测到一些异常值,但缺少一些观测值。在网上搜索,我发现了许多可用的方法。从消除趋势和季节性成分并研究其余部分的意义上讲,其中的stl分解似乎很有吸引力。阅读STL:一种基于黄土的季节性趋势分解程序,stl在确定分配可变性的设置方面似乎很灵活,不受异常值的影响,即使缺少值也可以应用。但是,尝试使用R,经过四年的观察并根据http://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.html定义所有参数,我遇到了错误: "time series contains internal NAs"(当时na.action=na.omit)和 "series is not periodic or has less than two periods"(当时na.action=na.exclude)。 我仔细检查了频率是否正确定义。我在博客中看到了相关问题,但是没有找到任何可以解决此问题的建议。不可能stl在缺少值的系列中应用?我非常不愿意对它们进行插值,因为我不想引入(并因此检测...)工件。出于同样的原因,我不知道改为使用ARIMA方法是多么明智(如果缺少值仍然是个问题)。 如果您知道一种适用stl于缺失值的系列的方法,或者您认为我的选择在方法上不合理,或者您有更好的建议,请分享。我是该领域的新手,但堆满了(似乎...)相关信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.