Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

5
不同长度时间序列的SVD维数缩减
我正在使用奇异值分解作为降维技术。 给定N维向量D,其思想是表示不相关维的变换空间中的特征,这将以重要性降序将大多数数据信息压缩到该空间的特征向量中。 现在,我正在尝试将此过程应用于时间序列数据。问题在于并非所有序列都具有相同的长度,因此我无法真正构建num-by-dim矩阵并应用SVD。我的第一个想法是通过构建num-by-maxDim矩阵并用零填充空白空间来用零填充矩阵,但是我不确定这是否正确。 我的问题是,如何将SVD降维方法应用于不同长度的时间序列?或者,是否还有其他通常用于时间序列的本征空间表示方法? 下面是一段MATLAB代码来说明这一想法: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

2
使用时间序列分析来分析/预测暴力行为
这是一个很简单的问题,但是我对答案很感兴趣。我在精神病院工作,我有三年的数据,每天从每个病房收集有关该病房暴力程度的信息。 显然,适合这些数据的模型是时间序列模型。为了使它们更加正常,我不得不改变分数。我用差异数据拟合ARMA模型,而我认为最合适的模型是滞后2时具有一阶差分和一阶自相关的模型。 我的问题是,该模型到底可以用于什么?关于野兔数量和油价,时间序列在教科书中似乎总是非常有用,但是现在我已经做了我自己的研究,结果似乎是如此抽象以至于完全不透明。得分的差异在第二个滞后时彼此相关,但是我不能真正建议所有人在所有严重事件发生后的第二天都保持高度警惕。 可以吗

5
何时使用多个模型进行预测?
这是一个相当普遍的问题: 我通常发现,在尝试从样本中预测时间序列时,使用多个不同的模型要优于一个模型。有没有好的论文证明模型的组合将胜过单个模型?结合多个模型是否有最佳实践? 一些参考: Hui Zoua,Yuhong Yang “结合时间序列模型进行预测” International Journal of Forecasting 20(2004)69– 84

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
通过多元回归捕获季节性以获取每日数据
我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗? 我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。

3
残差自相关与滞后因变量
当对时间序列建模时,有可能(1)对误差项的相关结构进行建模,例如AR(1)过程(2)包括滞后因变量作为解释变量(在右侧) 我了解他们有时是选择(2)的重要理由。 但是,进行(1)或(2)或什至两者都进行的方法学原因是什么?

1
如何解释自相关
我已经根据鱼的位置:X(x.ts)和Y(y.ts)在时间序列数据上计算了鱼的运动模式的自相关。 通过使用R,我运行了以下函数并生成了以下图: acf(x.ts,100) acf(y.ts,100) 我的问题是,如何解释这些图?报告任何类型的模式都需要什么信息?我一直在浏览互联网,还没有找到一种有效的解释方式的简洁方法。 另外,您如何确定要使用的正确滞后量?我用了100,但我不确定这是否太多。

4
回归模型,其响应变量是通常发生年度事件的一年中的一天
在这种情况下,我指的是湖泊结冰的那一天。该“冰上”日期每年仅发生一次,但有时根本不发生(如果冬天温暖的话)。因此,在一年中,湖泊可能在第20天(1月20日)结冰,而在另一年,它可能根本不会结冰。 目的是找出冰冻日期的驱动因素。 预测因素将是每年的秋季/冬季气温。年份可能是长期线性趋势的预测指标。 1)整数“一年中的一天”是否是合理的响应变量(如果不是,则是什么?)? 2)如何处理湖泊永不结冰的年份? 编辑: 我不知道这里的礼节是什么,但我认为我会张贴收到的建议的结果。这是论文,开放获取。感谢@pedrofigueira和@cboettig,我对使用的方法获得了很好的反馈。当然,错误是我自己的。

1
只要模型基于相同的数据集,您可以比较AIC值吗?
我正在使用Rob Hyndman的预测包在R中进行一些预测。属于包装的纸张可以在这里找到。 在解释了自动预测算法后,作者在相同的数据集上实现了这些算法。但是,在估计了指数平滑和ARIMA模型后,他们做出了我不理解的声明(第17页): 请注意,信息标准不可比较。 我认为使用AIC进行模型选择的优势在于,只要使用相同数据集对AIC值进行估算,我们就可以比较它们。这不正确吗? 因为我计划使用所谓的Akaike权重来组合来自不同模型类(例如指数平滑和ARIMA)的预测(请参阅Burnham和Anderson,2002,有关Akaike权重的讨论),这对我来说尤其有意义。 参考文献 Burnham,KP和Anderson,DR(2002)。模型选择和多模型推理:一种实用的信息理论方法。施普林格出版社。

4
在有马之前或有马以内的时差时间序列
在使用Arima之前最好先区分一个系列(假设需要),还是在Arima中使用d参数更好? 令我惊讶的是,取决于使用相同模型和数据的路线,拟合值有多么不同。还是我做错了什么? install.packages("forecast") library(forecast) wineindT<-window(wineind, start=c(1987,1), end=c(1994,8)) wineindT_diff <-diff(wineindT) #coefficients and other measures are similar modA<-Arima(wineindT,order=c(1,1,0)) summary(modA) modB<-Arima(wineindT_diff,order=c(1,0,0)) summary(modB) #fitted values from modA A<-forecast.Arima(modA,1)$fitted #fitted from modB, setting initial value to the first value in the original series B<-diffinv(forecast.Arima(modB,1)$fitted,xi=wineindT[1]) plot(A, col="red") lines(B, col="blue") 加: 请注意,我先对系列进行求差并拟合arima(1,0,0),然后将arima(1,1,0)拟合到原始序列。我(我认为)反转差异文件上arima(1,0,0)的拟合值的差异。 我正在比较拟合值-而不是预测。 这是情节(红色是arima(1,1,0),蓝色是在变回原始比例后的差分序列上的arima(1,0,0)): 回应Hyndman博士的回答: 1)您能否在R代码中说明我需要做些什么才能使Arima(1,1, 0)和Arima(1,0,0)在手动差分序列上?我认为这与没有包含在modA中有关,但是我不确定如何进行。 …
13 r  time-series  arima 

1
解释R's plot.stl中的范围条吗?
我很难弄清楚范围条的plot.stl确切含义。我在该问题上找到了加文(Gavin)的帖子,并阅读了文档,我知道它们告诉了被分解组件的相对大小,但是我仍然不确定它们是如何工作的。 例如: 数据:微小条,无刻度季节性:完整条,刻度在-0.6到0.2范围内趋势:另一个微小条(似乎等于数据),无剩余刻度:中号条,从-1.5到0.5 我不明白联系的基础是什么,为什么趋势没有规模。我尝试过stl,decompose乘法和加法的结果相同。
13 r  time-series 

1
您如何选择时间序列中的分析单位(聚合级别)?
如果您可以在任何时间精度水平上测量观测值的时间序列,并且您的研究目标是确定X和Y之间的关系,那么是否有任何经验依据来选择特定级别的聚合而不是另一种聚合?该选择是否仅基于理论和/或实际限制? 对于这个主要问题,我有三个子问题: X或Y在较大级别内的任何非随机变化是否足以选择较小级别的聚合(其中非随机是观测的任何时间模式)? X和Y之间的关系在较小聚合级别上的任何变化是否足以证明较小分析单位的合理性?如果某种变化是可以接受的,那么如何决定多少变化太大呢? 人们是否可以引用出于经验原因或理论原因而认为一种分析单位比另一分析单位引人注目的/定义明确的论点? 我很清楚空间分析中的可修改面积单位问题(Openshaw 1984)。我并没有声称自己是该材料的专家,但是到目前为止,我只想认为较小的分析单位总是更好,因为人们不太可能犯生态谬论(Robinson 1950)。如果您有一个有关汇总地理单位的直接相关参考或答案,我也将不胜感激。

2
具有时间不确定性的时间序列中事件的评估者间可靠性
我有多个独立的编码人员,他们试图确定时间序列中的事件-在这种情况下,观看面对面对话的视频并查找特定的非语言行为(例如,头点头),并对每个事件的时间和类别进行编码事件。可以将这些数据合理地视为具有高采样率(30帧/秒)的离散时间序列或连续时间序列,以较易处理的形式为准。 我想计算的互信度的一些措施,但我认为会有一些不确定性,当事件发生; 也就是说,例如,我希望一个编码器可以编码某个特定运动开始的时间比其他编码器认为的开始晚四分之一秒。这些是罕见的事件,如果有帮助的话;事件之间通常至少需要几秒钟(数百个视频帧)。 有没有一种评估评估者之间可靠性的好方法,可以同时考虑到这两种同意和不同意见:(1)评估者是否同意发生什么事件(如果有),以及(2)他们同意什么时候发生?第二点对我很重要,因为我有兴趣了解这些事件相对于对话中发生的其他事件的时机,例如人们所说的话。 我领域的标准做法似乎是将事情分成多个时间片,例如1/4秒左右,汇总每个编码器每个时间片报告的事件,然后计算科恩的kappa或类似的度量。但是切片持续时间的选择是临时的,我对事件时间的不确定性也不太了解。 到目前为止,我最好的想法是我可以计算某种可靠性曲线。像kappa一样,它是窗口大小的函数,在该窗口中,我认为两个事件在同一时间被编码。不过,我不太确定从那里去哪里。

6
如何表征突然的变化?
这个问题可能太基础了。对于数据的时间趋势,我想找出发生“突变”变化的点。例如,在下面显示的第一个图中,我想使用某种统计方法找出更改点。我想在变化点不明显的其他一些数据中使用这种方法(例如第二张图)。

3
集合时间序列模型
我需要自动进行时间序列预测,而且我事先不知道这些序列的功能(季节性,趋势,噪音等)。 我的目标不是为每个系列获得最佳模型,而是避免出现非常糟糕的模型。换句话说,每次都会出现小错误不是问题,但是偶尔会出现大错误是一个问题。 我认为我可以通过组合使用不同技术计算的模型来实现。 也就是说,尽管ARIMA对于特定系列来说是最好的方法,但对于其他系列来说可能不是最好的方法。指数平滑也一样。 但是,如果我将每种技术中的一个模型组合在一起,即使一个模型不太好,另一个模型也会使估算值更接近真实值。 众所周知,ARIMA在长期行为良好的序列中效果更好,而指数平滑在短期噪声序列中表现突出。 我的想法是结合使用两种技术生成的模型以获得更可靠的预测,这有意义吗? 可能有很多方法可以合并这些模型。 如果这是一个好方法,我应该如何将它们结合起来? 一个简单的预测平均值方法是一个选择,但是如果我根据模型的某种优度度量对平均值进行加权,也许可以得到更好的预测。 合并模型时对方差的处理方式是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.