Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

1
如何计算时间序列预测的置信区间?
我有一个时间序列(假设到),我需要使用模型预测下一个样本(假设)例如神经网络或多元线性回归。在时间n,我拥有从到所有样本,并且需要预测;在时间,我拥有从到所有样本,并且需要预测;等等。X1X1X_1XnXnX_nXn+1,Xn+2,…,Xn+kXn+1,Xn+2,…,Xn+kX_{n+1}, X_{n+2},\dots, X_{n+k}X1X1X_1XnXnX_nXn+1Xn+1X_{n+1}n+1n+1n+1X1X1X_1Xn+1Xn+1X_{n+1}Xn+2Xn+2X_{n+2} 假设我已经使用模型预测了值。如何计算这些预测值的置信区间?Yn+1,Yn+2,…,Yn+kYn+1,Yn+2,…,Yn+kY_{n+1}, Y_{n+2},\dots, Y_{n+k} 如果有人可以在这个问题上帮助我,我将不胜感激。(到目前为止,我已经阅读了用于计算样本均值的置信区间的公式,但是我没有看到有关如何为时间序列的预测值计算置信区间的任何信息)。

3
在线材料学习时间序列分析
我的问题是,是否有任何良好的在线材料可供学习。介绍得很好的东西,尤其是ARMA模型和相关的数学。 编辑:我正在寻找高端本科水平的东西。布罗克韦尔(Brockwell)和戴维斯(Davis)的《时间序列与预测简介》中的内容

3
如何根据不定期的汇总数据进行预测?
我正在尝试预测自动售货机中产品的销售情况。问题在于,机器的灌装间隔不规则,每次灌装我们只能记录自机器最后一次灌装以来的累计销售额(即我们没有每日销售数据)。因此,基本上我们有不定期的汇总销售数据。间隔通常在2天到3周之间。这是一台自动售货机和一种产品的示例数据: 27/02/2012 48 17/02/2012 24 09/02/2012 16 02/02/2012 7 25/01/2012 12 16/01/2012 16 05/01/2012 16 23/12/2011 4 16/12/2011 14 09/12/2011 4 02/12/2011 2 我们当前的幼稚算法是通过将过去90天内的销售总量除以90来计算每天的平均销售额。 您是否知道如何改善每天的销售预测?我需要预测在下次访问机器时将出售什么。给定数据的性质,是否可以使用某种指数平滑算法? 提前致谢! 更新:非常感谢所有的答案和评论。让我尝试提供更多背景信息(问题背后的业务案例-当然非常简化)。我们有数百台自动售货机。每天我们都必须决定要访问其中的20个以进行补充。为此,我们试图预测计算机的当前状态,并选择“最空”的20台计算机。对于每台机器和产品,我们正在使用上述朴素算法计算每日平均销售量(SPD)。然后,将SPD乘以自上次填充机器以来的天数,结果就是预计的销售量。

1
如何估算两个周期性时间序列之间的相位差?
我有2个每日时间序列,每个时间序列长达6年。虽然嘈杂,但它们都明显是周期性的(频率为〜1年),但似乎异相。我想估计这些时间序列之间的相位差。 我考虑过将形式曲线拟合到每个时间序列,并只是比较b的两个不同值,但是我怀疑还有更好的方法(和严格的!)方法(也许使用傅立叶变换?)。如果可能的话,我也希望对相位差估计中的不确定性有某种了解。asin(2π365t−b)asin⁡(2π365t−b)a\sin(\frac{2\pi}{365}t - b) 更新: 阴影区域为95%CI。 两个时间序列之间的样本互相关:

8
给定过去购买的数据,可以使用哪种算法来预测耗材使用情况?
考虑到一个据说简单但有趣的问题,鉴于我以前的购买历史,我想写一些代码来预测我不久将需要的消耗品。我敢肯定,这类问题的定义更为通用且经过深入研究(有人建议这与ERP系统等中的某些概念有关)。 我拥有的数据是以前购买的完整历史记录。假设我正在查看纸张供应,我的数据看起来像(日期,纸张): 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 它不会定期进行“采样”,因此我认为它不符合时间序列数据的条件。 我每次都没有实际库存水平的数据。我想使用这种简单且有限的数据来预测在(例如)3、6、12个月中需要多少纸张。 到目前为止,我才知道我在寻找什么叫做外推法,而不是更多:) 在这种情况下可以使用什么算法? 如果与先前算法不同,哪种算法还可以利用更多的数据点来提供当前的供电水平(例如,如果我知道在XI的日期还剩Y张纸)? 如果您知道更好的术语,请随时编辑问题,标题和标签。 编辑:对于它的价值,我将尝试在python中进行编码。我知道有很多库可以实现或多或少的任何算法。在这个问题中,我想探索可以使用的概念和技术,并把实际的实现留给读者练习。

1
进行时间序列预测时的良好做法
我已经进行了几个月的短期负荷预测,并使用气候/天气数据来提高准确性。我具有计算机科学背景,因此,我尝试使用ARIMA模型之类的统计工具避免犯大错和不公平的比较。我想知道您对以下几点的看法: 我同时使用(S)ARIMA和(S)ARIMAX模型来研究天气数据对天气预报的影响,您认为是否还需要使用指数平滑方法? 从头两个星期开始,我有300个每日样本的时间序列,并使用auto.arima R函数(预测软件包)构建的模型进行了提前5天的预测。然后,将另一个样本添加到我的数据集中,然后再次校准模型,然后再进行5天的预测,依此类推,直到可用数据结束。您认为这种操作方式正确吗? 感谢您的建议,尽管我们的工作目标是发表在工程学期刊上的文章,但从统计的角度来看,我想做的尽可能严格。

2
高度不规则的时间序列
我有一些不同鱼类种群的数据,这些数据是在大约5年的时间内采样的,但模式非常不规则。有时样本之间有几个月的间隔,有时一个月内有多个样本。也有很多0计数 如何处理此类数据? 我可以很容易地在R中绘制它的图形,但是这些图形并不是很特别,因为它们非常颠簸。 在建模方面-将物种建模为各种事物的函数-也许是混合模型(又称为多级模型)。 欢迎任何参考或想法 回应评论的一些细节 大约有15种。 我试图既了解每条鱼的任何趋势或季节性,又看一看物种之间的相互关系(我的客户最初想要一个简单的相关表) 目标是描述性和分析性的,而非预测性的 进一步的编辑:我确实找到了K. Rehfield等人的论文,该论文建议使用高斯核估计高度不规则时间序列的ACF http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf

3
通过平均数据点组合两个时间序列
我想通过最小化均方预测误差,将一个时间序列数据集的预测值和预测值(即过去的预测值)组合为一个时间序列。 假设我有一个2001-2010年的时间序列,与2007年之间有一个间隔。我已经能够使用2001-2007年数据(红线-称为YfYfY_f)来预测2007年,并能够使用2008-2009年数据进行反向预测(光蓝线-称为YbYbY_b)。 我想将YfYfY_f和的数据点合并为每个月的估算数据点Y_i。理想情况下,我希望获得权重,以使其最小化的均方预测误差(MSPE)。如果这不可能,那么我如何才能找到两个时间序列数据点之间的平均值? w ^ ÿ 我YbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 作为一个简单的例子: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 3 4 5 6 7 …

1
是否可以在混合模型中将时间作为预测变量?
我一直认为时间不应该用作回归(包括gam的预测)的预测因子,因为这样一来,人们就可以简单地“描述”趋势本身。如果一项研究的目的是找到诸如温度等环境参数来解释动物活动的变化,那么我想知道时间如何发挥作用?作为未测参数的代理? 在这里可以看到港口海豚活动数据的一些时间趋势:-> 在进行GAMM时如何处理时间序列中的缺口? 我的问题是:当我在模型中加入时间(以朱利安天数为单位)时,所有其他参数的90%就变得微不足道了(来自mgcv的ts收缩平滑器将其排除在外)。如果我没有时间,那么其中一些很重要... 问题是:时间是否可以用作预测变量(甚至可能需要?),或者这弄乱了我的分析? 提前谢谢了

2
时间序列集比较
我要比较三组时间序列数据。他们在大约12天的3个不同时期服用。它们是在决赛周期间在大学图书馆中记录的平均,最大和最小人数。我必须做平均值,最大值和最小值,因为每小时的人头计数不是连续的(请参阅时间序列中的常规数据空白)。 现在数据集看起来像这样。每个晚上有一个数据点(平均,最大或最小),持续12个晚上。仅在所关注的12天之内,收集了3个学期的数据。因此,例如,2010年春季,2010年秋季和2011年5月每个都有12点。这是一个示例图表: 我已经覆盖了整个学期,因为我想看看每个学期的模式如何变化。但是,正如我在链接线程中所知,将两个学期并排拍打不是一个好主意,因为它们之间没有数据。 问题是:我可以使用哪种数学方法来比较每个学期的出勤模式? 我必须对时间序列进行任何特殊处理,还是可以简单地采用百分比差异?我的目标是说这几天的图书馆使用量正在上升或下降。我只是不确定应该使用哪种技术来显示它。

2
纵向数据:时间序列,重复测量或其他?
用简单的英语来说: 我有一个多元回归或ANOVA模型,但是每个人的响应变量都是时间的曲线函数。 如何确定哪个右侧变量导致曲线的形状或垂直偏移的显着差异? 这是时间序列问题,重复测量问题还是其他所有问题? 分析此类数据的最佳实践是什么(最好在中R,但我愿意使用其他软件)? 确切地说: 假设我有一个模型但实际上是从收集的一系列数据点在许多时间点,相同的个体被记录为数值变量。绘制数据表明,对于每个个体是时间的二次函数或周期性函数,其垂直偏移,形状或频率(在周期性情况下)可能极大地取决于协变量。协变量不会随时间变化-即,在数据收集期间,个体具有恒定的体重或治疗组。ÿ我Ĵ ķ= β0+ β1个X一世+ β2XĴ+ β3X一世XĴ+ ϵķÿ一世Ĵķ=β0+β1个X一世+β2XĴ+β3X一世XĴ+ϵķy_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kÿ我Ĵ ķÿ一世Ĵķy_{ijk}ķķkŤŤtÿ我Ĵ ķ 吨ÿ一世ĴķŤy_{ijkt} 到目前为止,我已经尝试了以下R方法: 马诺娃 Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...这里YT是一个矩阵,其列为时间点,在此示例中为10个,但在实际数据中则更多。 问题:这将时间视为一个因素,但是每个人的时间点并不完全匹配。此外,其中有许多是与样本大小相关的,因此模型变得饱和。似乎随时间变化的响应变量的形状被忽略了。 混合模型(如Pinheiro和Bates,S和S-Plus中的混合效应模型) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ...其中ID一个因素是按个人分组数据。在此示例中,响应随时间变化是周期性的,但是可以替代地存在二次项或其他时间函数。 …

1
如何将两个时间序列与间隔和不同的时基相关联?
我在StackOverflow上提出了这个问题,建议在这里提出。 我有两个时间序列的3D加速度计数据,它们具有不同的时基(时钟在不同的时间开始,在采样时间中有一些非常小的蠕变),并且包含许多不同大小的间隙(由于与写入分开相关的延迟)闪存设备)。 我使用的加速度计是便宜的GCDC X250-2。我正在以最高增益运行加速度计,因此数据的本底噪声很大。 每个时间序列都有大约200万个数据点(以512个样本/秒的速度在一小时内),并且包含大约500个感兴趣的事件,其中典型事件跨越100-150个样本(每个200-300 ms)。这些事件中的许多事件都受到闪存写入期间数据中断的影响。 因此,数据不是原始的,甚至不是非常漂亮。但是我的眼球检查表明它清楚地包含了我感兴趣的信息。(如果需要,我可以发布图表。) 加速度计处于类似的环境中,但耦合程度适中,这意味着我可以通过肉眼分辨出每个加速度计匹配了哪些事件,但是到目前为止,我在软件中还是没有成功。由于物理限制,这些设备还以不同的方向安装,这些位置的轴不匹配,但它们尽可能接近正交。因此,例如,对于3轴加速度计A和B,+ Ax映射到-By(上下),+ Az映射到-Bx(左右),而+ Ay映射到-Bz(前后) 。 我的最初目标是关联垂直轴上的震动事件,尽管我最终希望a)自动发现轴映射,b)关联映射的ace上的活动,以及c)提取两个加速度计之间的行为差​​异(例如扭曲)或弯曲)。 时间序列数据的性质使Python的numpy.correlate()无法使用。我也看过R's Zoo套件,但是并没有取得进展。我曾在信号分析的不同领域寻求帮助,但没有取得任何进展。 有人对我可以做什么或应该研究的方法有任何线索吗? 2011年2月28日更新:此处添加了一些显示数据示例的图表。

3
用于学习虚假时间序列回归的资源
我经常听到“虚假回归”(在时间序列中)和诸如单位根测试之类的相关术语,但从未理解。 为什么/何时会发生?(我相信这是两个时间序列进行协整的时候,即两者的某种线性组合是固定的,但是我不明白为什么协整会导致虚假。)如何避免这种情况? 我正在寻找对协整/单位根检验/ Granger因果关系与虚假回归有什么关系的高级理解(我记得其中三个是与虚假回归相关联的术语,但我不记得到底是什么),因此,无论是自定义响应还是指向我可以了解更多信息的引用的链接,都很棒。


3
汇总时间序列以使其看起来更有意义是否有效?
我还有另一个关于时间序列的问题。 我有一个数据集,可以提供三年内精神病医院的暴力事件的每日记录。在上一个问题的帮助下,我一直在摆弄它,现在对此感到高兴。 我现在要知道的是,每日系列非常嘈杂。它从0时到20时上下波动剧烈。使用黄土图和预测软件包(我可以为像我这样的新手强烈推荐),我得到一条完全平坦的线,且预测的置信区间很大。 但是,每周或每月汇总数据更有意义。它们从系列开始时就开始下降,然后在中间再次上升。黄土图和预测包都产生了看起来更有意义的东西。 确实感觉有点像作弊。我是不是更喜欢聚合版本,因为它们看起来不错,没有任何实际有效性? 还是计算移动平均值并以此为基础会更好?恐怕我对所有这些背后的理论还不够了解,无法对可以接受的东西充满信心

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.