Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

1
时间序列预测的随机森林回归
我正在尝试利用RF回归对造纸厂的性能进行预测。 我每分钟都有输入数据(进纸木浆的速度和数量等)以及机器的性能(生产的纸张,机器消耗的功率)的数据,我希望做出10分钟的预测在性能变量上领先。 我有12个月的数据,因此将其分为11个月的培训时间和最后一个月的测试时间。 到目前为止,我已经创建了10个新功能,每个性能变量的滞后值在1-10分钟之内,并使用这些功能以及输入来进行预测。测试集的性能一直很好(系统是可以预测的),但是我担心我的方法中缺少某些东西。 例如,在本文中,作者陈述了他们测试随机森林模型的预测能力的方法: 通过迭代添加新一周的数据,基于更新后的数据训练新模型并预测下一周的爆发次数来进行模拟 这与利用时间序列中的“后来的”数据作为测试有何不同?我是否应该使用这种方法以及测试数据集来验证我的RF回归模型?此外,这种对森林随机回归的“自回归”方法是否对时间序列有效,如果我对未来10分钟的预测感兴趣,我是否甚至需要创建这么多滞后变量?

1
在R中的ARIMA时间序列中绘制预测值
这个问题可能有一个以上的严重误解,但这并不是要正确地进行计算,而是要着眼于某些重点来激发时间序列的学习。 在试图理解时间序列的应用时,似乎对数据进行去趋势化使得预测未来值变得难以置信。例如,gtemp来自astsa程序包的时间序列如下所示: 在绘制预测的未来值时,需要考虑过去几十年的上升趋势。 但是,为了评估时间序列的波动,需要将数据转换为固定的时间序列。如果我把它模型或差分(我想这是因为中间的进行了ARIMA过程1中order = c(-, 1, -))为: require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) 然后尝试预测未来价值(年),我错过了上升趋势部分:505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) 不必一定要对特定ARIMA参数进行实际优化, 如何恢复图的预测部分中的上升趋势? 我怀疑某个地方存在“隐藏”的OLS,这会导致这种不稳定吗? 我遇到了的概念drift,可以将其合并到包的Arima()功能中forecast,从而得出合理的图形: par(mfrow = c(1,2)) fit1 = Arima(gtemp, order = c(4,1,1), include.drift = T) future = forecast(fit1, …

1
定期样条以适应定期数据
在对这个问题的评论中,用户@whuber引用了使用样条曲线的定期版本来拟合定期数据的可能性。我想了解更多有关此方法的信息,特别是定义样条曲线的方程式,以及如何在实践中实现它们(我主要是R用户,但如有需要,可以使用MATLAB或Python)。同样,但这是“很高兴”的事情,很高兴知道与三角多项式拟合有关的可能的优点/缺点,这就是我通常如何处理此类数据(除非响应不是很平稳,在这种情况下,我会切换到具有周期性内核的高斯过程。

2
了解粒子过滤器的数学和统计学先决条件?
我目前正在尝试了解粒子过滤器及其在金融中的可能用途,并且我在相当努力。为了(i)使粒子过滤器的基础变得易于使用,以及(ii)以后再全面理解它们,我应该重新讨论哪些数学和统计先决条件(来自定量金融的背景)?除了状态空间模型(我尚未介绍)以外,我对研究生级时间序列计量经济学有扎实的知识。 任何提示都非常感谢!

1
对自相关二进制时间序列建模
对二进制时间序列建模的常用方法是什么?是否有纸质或教科书在其中处理?我认为具有强自相关的二进制过程。类似于从零开始的AR(1)进程的符号。说且 有白噪声。然后,由定义 的二进制时间序列 将显示自相关,我想用以下代码进行说明X0=0X0=0X_0 = 0Xt+1=β1Xt+ϵt,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, ϵtϵt\epsilon_t(Yt)t≥0(Yt)t≥0(Y_t)_{t \ge 0}Yt=sign(Xt)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) X = rep(0,100) beta = 0.9 sigma = 0.1 for(i in 1:(length(X)-1)){ X[i+1] =beta*X[i] + rnorm(1,sd=sigma) } acf(X) acf(sign(X)) 如果我得到二进制数据并且我所知道的是存在显着的自相关,那么教科书/常用的建模方法是什么?YtYtY_t 我认为,如果使用外部回归变量或季节性假人,我可以进行逻辑回归。但是,纯时间序列方法是什么? 编辑:确切地说,我们假设sign(X)最多可自动关联4个滞后。这将是4阶的马尔可夫模型,我们可以对其进行拟合和预测吗? 编辑2:同时,我偶然发现了时间序列的glms。这些是解释错误的变量,它们是滞后的观察结果和外部回归变量。但是,这似乎是针对泊松和负二项式分布计数完成的。我可以使用泊松分布来估算伯努利斯。我只是想知道是否没有明确的教科书方法。 编辑3:赏金到期...有什么想法吗?

3
统计测试,以验证两个相似的时间序列何时开始偏离
从标题开始,我想知道是否存在统计测试,可以帮助我确定两个相似时间序列之间的重大差异。具体来说,看下图,我想检测到序列在时间t1开始发散,即它们之间的差异开始显着。此外,我还将检测系列之间的差异何时不显着。 有任何有用的统计检验可以做到这一点吗?

2
主成分分析可以用于股票价格/非平稳数据吗?
我正在阅读《面向黑客的机器学习》一书中给出的示例。我将首先详细说明示例,然后再讨论我的问题。 范例: 以25个股价的10年为一个数据集。以25股价格运行PCA。将主要成分与道琼斯指数进行比较。观察PC与DJI之间的强烈相似之处! 据我了解,该示例更像是一个玩具,可以帮助像我这样的新手了解PCA工具的有效性! 但是,从另一个消息来源看,我发现股价是不稳定的,以股价运行PCA是荒谬的。我从中阅读的资料完全嘲笑了计算股价的协方差和PCA的想法。 问题: 这个例子如何运作得如此好?股价的PCA与DJI非常接近。该数据是2002-2011年股价的真实数据。 有人可以为我指出一些不错的资源来读取固定/非固定数据吗?我是电脑程序编制员。我有很好的数学背景。但是三年来我都没有做过认真的数学运算。我已经开始重新阅读有关随机漫步等内容的信息。

2
为什么要使用Durbin-Watson而不是测试自相关?
Durbin-Watson检验测试滞后1处的残差自相关,但是直接检验滞后1处的自相关也是如此。另外,您可以在滞后2,3,4处测试自相关,并且有很好的portmanteau测试可以在多个滞后处进行自相关,并获得漂亮的,易于解释的图形[例如R中的acf()函数]。杜宾·沃森(Durbin-Watson)不够直观,经常会得出不确定的结果。那么为什么要使用它呢? 这个问题的灵感源于某些Durbin-Watson检验的不确定性,但显然与之分离。

1
区分短期效果和长期效果
我在论文中读了以下句子: 短期系数和长期系数之间存在差异的事实是我们的规范的结果,其中包括滞后的内生变量。 他们对第一个差异进行回归,并包括因变量的滞后。 现在他们争辩说,如果您查看输出中的估计值(例如,称此估计值),则这是对因变量的短期影响。 他们进一步认为,查看 /(1-滞后估计)可以得出p对因变量的长期影响。p pppppppppp 可以在以下脚注23的第20页上找到该文件:https : //www.ecb.europa.eu/pub/pdf/scpwps/ecbwp1328.pdf及其有关短期/长期效果的讨论。 我不完全理解为什么您可以区分对因变量的短期和长期影响。如果有人可以更详细地解释他们的想法,那将非常有帮助。ppp

1
如何测试“先前状态”是否对R中的“后续状态”有影响
想象一个情况:我们有三个矿山的历史记录(已有20年)。白银的存在是否会增加明年发现黄金的可能性?如何测试这样的问题? 这是示例数据: mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)


1
不同频率的回归
我正在尝试进行简单回归,但我的Y变量按月频率观察,而x变量按年频率观察。我将非常感谢有关可用于不同频率回归的合适方法的一些指导。 非常感谢你

2
ARIMA过程的Box-Jenkins方法到底是什么?
在维基百科页面称,箱詹金斯是拟合的ARIMA模型对于时间序列的方法。现在,如果我想将ARIMA模型拟合到一个时间序列,我将打开SAS,调用proc ARIMA,提供参数,SAS会给我AR和MA系数。现在,我可以尝试使用和SAS的不同组合,每种情况下给我一组系数。我选择Akaike信息准则最低的集合。p,d,qp,d,qp,d,qp,d,qp,d,qp,d,q 我的问题是:在上述过程中,我在哪里使用Box-Jenkins?我是否应该使用Box-Jenkins得出初始估计?还是SAS内部使用了它?p,d,qp,d,qp,d,q


3
时间序列分析与机器学习?
只是一个普遍的问题。如果您有时间序列数据,那么什么时候使用时间序列技术(aka,ARCH,GARCH等)优于机器/统计学习技术(KNN,回归)呢?如果交叉验证中存在类似的问题,请向我指出-已查找且找不到。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.