Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

1
合并多个时间序列时应该注意哪些问题?
假设我有多个时间序列,例如某个地区各个站点的多个温度记录。我想获得整个区域的单个温度记录,可以用来描述区域气候的各个方面。直观的方法可能是简单地取每个时间步长上所有电台的平均值,但是我的统计蜘蛛感应(我肯定还不太了解)告诉我,这可能并不容易。尤其是,我认为对整个区域进行平均会消除一些有趣的极端温度,并且我可能会对附近站点之间的依赖性产生疑问。 如果我尝试这样的策略,还有其他方法可以克服这些问题,或者有更明智的组合此类数据的方法,还会遇到什么其他问题? 注意:答案可能比我提供的空间示例更为笼统。

1
vcovHC,vcovHAC,NeweyWest –使用哪个功能?
我正在尝试更新基于lm()的模型,以获取正确的标准错误和测试。我真的很困惑要使用哪个VC矩阵。该sandwich软件包提供vcovHC,vcovHAC和NeweyWest。前者仅说明异方差性,而后两者仅说明序列相关性和异方差性。但是,文档并没有太多介绍后两者之间的区别(至少我不明白)。通过查看函数本身,我意识到NeweyWest实际上调用了vcovHAC。 根据经验,coeftest(mymodel, vcov. = vcovHAC)和的结果是coeftest(mymodel, vcov. = NeweyWest)完全不同的。虽然vcovHAC与天真的lm结果有些接近,但使用NeweyWest时,所有系数都变得微不足道了(测试甚至接近1)。

4
如何获取mgcv中plot.gam中使用的值?
我想找出在mgcv软件包(x, y)中绘图所使用的值。有谁知道我如何提取或计算这些值?plot(b, seWithMean=TRUE) 这是一个例子: library(mgcv) set.seed(0) dat <- gamSim(1, n=400, dist="normal", scale=2) b <- gam(y~s(x0), data=dat) plot(b, seWithMean=TRUE)




3
通过机器学习预测几个时期
我最近回顾了自己的时间序列知识,并意识到机器学习通常只会提前一步。 有了一步一步的预测,我的意思是进行预测,例如,如果我们有每小时的数据,请使用上午10点到上午11点的数据进行预测,而上午12点则使用12点的数据进行预测等等。 机器学习方法可以产生提前h预测吗?有了h提前预测,我的意思是,例如,假设每小时的数据,我们使用上午10点的数据进行7提前预测,以获得11,12,13,14,15,16,17的估算值。时钟。 图片示例: 有关我的主要问题,我想知道: 我没有看到任何人使用机器学习进行h提前预测的原因是什么? 如果有一种使用机器学习的方法,它是否比ARIMA更为精确?

1
ARIMA模型的循环行为的条件
我正在尝试建模和预测一个周期性而不是季节性的时间序列(即存在类似季节性的模式,但没有固定的时间段)。可以使用ARIMA模型来做到这一点,如“ 预测:原理和实践”第8.5节所述: 如果数据显示周期,则的值ppp很重要。为了获得环预测,有必要具有p≥2p≥2p\geq 2与对参数的一些附加条件一起。对于AR(2)模型,如果,则会发生循环行为ϕ21+4ϕ2&lt;0ϕ12+4ϕ2&lt;0\phi^2_1+4\phi_2<0。 在一般ARIMA(p,d,q)情况下,参数的这些附加条件是什么?我到处都找不到。

1
如何突出显示时间序列中的嘈杂补丁?
我有很多时间序列数据-水位和速度与时间的关系。它是水力模型仿真的输出。作为检查过程的一部分,以确认模型是否按预期运行,我必须绘制每个时间序列图,以确保数据中没有“摆动”(请参见下面的示例轻微摆动)。使用建模软件的UI是一种非常缓慢且费力的检查数据的方法。因此,我编写了一个简短的VBA宏,以将模型中的各种数据(包括结果)导入Excel并一次将其全部绘制出来。我希望编写另一个简短的VBA宏来分析时间序列数据并突出显示任何可疑的部分。 到目前为止,我唯一的想法就是可以对数据的斜率进行一些分析。在给定的搜索窗口内,斜率多次从正变为负的快速变化的任何地方都可以归类为不稳定。我是否缺少任何更简单的技巧?本质上,“稳定”模拟应提供非常平滑的曲线。任何突然的变化都可能是计算不稳定的结果。

1
为什么我的VAR模型在非平稳数据上比固定数据能更好地工作?
我正在使用python的statsmodels VAR库为财务时间序列数据建模,有些结果令我感到困惑。我知道VAR模型假设时间序列数据是固定的。我无意中拟合了两种不同证券的非平稳对数价格对数,并且令人惊讶的是,拟合值和样本内预测在相对微不足道的固定残差下非常准确。样本内预测的为99%,预测残差系列的标准偏差为预测值的10%左右。[R2[R2R^2 但是,当我改变对数价格并将该时间序列拟合到VAR模型时,拟合值和预测值相差甚远,在均值附近处于狭窄范围内。结果,残差在预测对数收益方面比拟合值做得更好,预测残差的标准偏差比拟合数据系列大15倍,而预测序列的.007值。[R2[R2R^2 我是否会误解VAR模型上的拟合残差与其他残差?为什么非平稳时间序列会比基于相同基础数据的平稳时间序列产生更准确的预测?我在同一个python库中使用ARMA模型进行了很好的工作,却看不到像对单个系列数据建模那样的东西。

1
贝叶斯在线变更点检测(边际预测分布)
我正在阅读Adams和MacKay 的贝叶斯在线变更点检测论文(链接)。 作者从写边际预测分布开始: 其中P(xt+1|x1:t)=∑rtP(xt+1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1) xtxtx_t是在时间的观测;ttt x1:tx1:t\textbf{x}_{1:t}表示直到时间的观测;ttt rt∈Nrt∈Nr_t \in \mathbb{N}是当前游程长度(自上一个更改点以来的时间,可以为0);和 x(r)txt(r)\textbf{x}_t^{(r)}是与运行相关的观察值集合。rtrtr_t 等式 1在形式上是正确的(请参阅下面@JuhoKokkala的回复),但是我的理解是,如果您想对进行实际预测,则需要将其扩展如下:xt+1xt+1x_{t+1} P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,x(r)t)P(rt|x1:t)P(rt+1|rt)(1b)P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} P(x_{t+1} | r_{t+1}, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) P(r_{t+1} | r_t) \qquad (1\text{b}) 我的理由是,(未来)时间t + 1可能会有一个变化点t+1t+1t+1,但后验P(rt|x1:t)P(rt|x1:t)P(r_t | …

1
使用ARIMA和LSTM进行时间序列预测
我要处理的问题是预测时间序列值。我正在一次查看一个时间序列,例如,基于15%的输入数据,我想预测其未来值。到目前为止,我遇到了两种模型: LSTM(长期短期记忆;一类递归神经网络) 有马 我都尝试过并阅读了一些文章。现在,我试图更好地了解如何比较两者。到目前为止,我发现了什么: 如果我们要处理大量数据并且有足够的训练数据,那么LSTM会更好地工作,而ARIMA对于较小的数据集则更好(这是正确的吗?) ARIMA需要一系列(p,q,d)必须根据数据计算的参数,而LSTM不需要设置此类参数。但是,我们需要为LSTM调整一些超参数。 除了上述特性之外,我找不到其他可以帮助我选择最佳模型的要点或事实。如果有人可以帮助我查找文章,论文或其他东西,我将非常感谢(到目前为止,还没有运气,这里和那里只有一些一般性意见,而没有基于实验的内容。) 我不得不提到,最初我是在处理流数据,但是现在我使用的是NAB数据集,其中包括50个数据集,最大大小为2万个数据点。

2
为回归中的最新观察结果分配更多权重
如何为R中的最新观测值分配更多权重? 我认为这是一个常见的问题或愿望,但是我很难弄清楚该如何实现。我试图对此进行大量搜索,但是我找不到一个很好的实际例子。 在我的示例中,随着时间的推移,我将拥有一个大型数据集。我想说的是对最近的数据行进行某种指数加权。因此,我将具有某种指数函数,即2015年的观测值对训练模型比_2012年的观测值更重要。 我的数据集变量包含分类值和数字值的混合,而我的目标是一个数值-如果重要的话。 我想使用GBM / Random Forest等模型进行测试/尝试,最好在CARET软件包中进行测试。 更新问题 我很欣赏下面给出的关于如何按两点之间的日期距离以指数方式衰减权重的响应。 但是,当涉及到在插入符号中训练此模型时,权重因素又如何精确计算呢?每个训练行中的权重值是将来某个点与该点历史发生之间的距离。 权重是否仅在预测期间起作用?因为如果它们在训练过程中发挥作用,那会不会引起各种问题,因为各种交叉折叠的权重都不同,试图预测可能早于它的某个时间点?

2
为什么在时间序列模型中使用信息标准(未调整的
在时间序列模型(例如ARMA-GARCH)中,为了选择模型的适当滞后或阶数,使用了不同的信息标准(例如AIC,BIC,SIC等)。 我的问题很简单,为什么不使用调整后的[R2R2R^2选择合适的模型?我们可以选择导致较高的值的模型[R2R2R^2。因为调整后的[R2R2R^2和信息准则都会对模型中更多数量的回归变量进行惩罚,因此前者惩罚[R2R2R^2而后者则惩罚似然值。

2
充分利用LSTM进行序列内事件预测
假设以下一维序列: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... A, B, C, ..这里的字母代表“普通”事件。 #, $, %, ...这里的符号代表“特殊”事件 所有事件之间的时间间隔是不均匀的(从几秒到几天),尽管过去的事件越远,影响未来事件的可能性就越小。理想情况下,我可以明确考虑这些时间延迟。 大约有10000个普通事件类型,而有大约100个特殊事件类型。特殊事件之前的普通事件数量有所不同,但不太可能超过100-300。 从根本上讲,我对在普通事件序列中寻找最终可预测特殊事件的模式感兴趣。 现在,您可以用不同的方法来实现:创建特征向量+标准分类,关联规则学习,HMM等。 在这种情况下,我对于基于LSTM的网络最适合的情况感到好奇。直截了当就是做类似Karparthy的char-rnn的事情,并根据历史预测下一个事件。然后换一个新序列 C, Z, Q, V, V, ... , V, W 您可以在模型中运行它,然后查看最有可能发生的特殊事件。但这并不太合适。 由于这是一个时间分类问题,因此似乎应该做的正确的事情是使用Alex Graves所描述的连接主义时间分类。 但是,在此刻投入过多之前,我正在寻找更容易,更快捷的方法来进行试验,以了解LSTM在这里的适用性。Tensorflow将会在某个时候看到CTC示例,但尚未出现。 所以我的(子)问题是: 鉴于上述问题,我想尝试使用LSTM值得尝试char-rnn类型的方法,是我该硬着头皮掌握CTC,还是有一个更好的起点。 您将如何明确纳入事件间计时信息。使用带有无操作事件的固定时钟显然可以,但是很难看。 假设我设法训练了LSTM,是否可以检查模型以查看其发生了哪种事件“主题”?(即类似于卷积网络中的过滤器) 任何示例代码(首选python)总是有帮助的。 编辑:只是要补充一下,序列中有一些噪音。有些事件可以安全地忽略,但是确切地说哪些事件并非总是可以预先说出来的。因此,理想情况下,模型(及其衍生的主题)对此具有鲁棒性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.