Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

7
通用时间序列的周期检测
这篇文章是另一篇有关时间序列异常检测通用方法的文章的延续。基本上,在这一点上,我感兴趣的是一种鲁棒的方式来发现受大量噪声影响的通用时间序列的周期性/季节性。从开发人员的角度来看,我想要一个简单的界面,例如: unsigned int discover_period(vector<double> v); 其中v包含样本的数组在哪里,返回值是信号的周期。重点是,同样,我无法对所分析的信号做出任何假设。我已经尝试过基于信号自相关(检测相关图的峰值)的方法,但是它并不像我想要的那样健壮。

3
我们有“可怜的投票”问题吗?
我知道,这听起来像是题外话,但请听我说。 在Stack Overflow上,我们在这里对文章进行投票,所有信息都以表格形式存储。 例如: 帖子ID投票者ID投票类型日期时间 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等等。投票类型2是反对,投票类型3是反对。您可以在http://data.stackexchange.com上查询此数据的匿名版本。 有一种看法认为,如果帖子的得分达到-1或更低,则更有可能被推荐。这可能仅仅是确认偏差,也可能是根源。 我们将如何分析这些数据以确认或否认这一假设?我们将如何衡量这种偏见的影响?

3
是否可以基于曲线形状进行时间序列聚类?
我具有一系列网点的销售数据,并希望根据其随时间变化的曲线形状对其进行分类。数据大致如下所示(但显然不是随机的,并且有一些丢失的数据): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …

3
如何与时间序列正确使用Pearson相关
我有2个时间序列(均平滑),我想对其进行互相关以了解它们之间的相关性。 我打算使用皮尔逊相关系数。这样合适吗 我的第二个问题是,我可以选择自己喜欢的两个时间序列。即,我可以选择我要我们的数据点数。这会影响输出的相关系数吗?我需要考虑这个吗? 出于说明目的 option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

8
时间序列分析中的陷阱
我只是在时间序列分析中开始自我学习。我注意到,存在许多潜在的陷阱,不适用于一般统计数据。因此,基于什么是常见的统计罪过?, 我想问一下: 时间序列分析中常见的陷阱或统计错误是什么? 这旨在作为社区Wiki,每个答案一个概念,请不要重复(或应该)列在“ 什么是常见的统计错误”上的更一般的统计陷阱?

8
是否有用于模拟不规则间隔时间序列的金标准?
在经济学领域(我认为),我们有ARIMA和GARCH用于规则间隔时间序列,而Poisson,Hawkes用于建模点过程,那么尝试对不规则(不均匀)间隔时间序列进行建模的尝试-是否存在(至少)任何常见实践? (如果您对该主题有一定的了解,还可以展开相应的Wiki文章。) 版本(关于缺失值和不规则间隔的时间序列): 回答@Lucas Reis评论。如果测量或实现变量之间的间隙由于(例如)泊松过程而间隔开,则这种正则化的空间就不大了,但它存在一个简单的过程:t(i)是变量x的第i个时间索引(x的第i个时间)实现x),则限定间隙的测量值作为时间之间g(i)=t(i)-t(i-1),那么我们就离散g(i)使用常数c,dg(i)=floor(g(i)/c并与原来的时间序列的老观测之间的空白值的数量创建新的时间序列i和i+1等于DG(我),但问题是,这该过程很容易产生时间序列,而缺失数据的数量远大于观测值的数量,因此,对缺失观测值的合理估计可能是不可能的,而且可能太大c删除“时间结构/时间依赖性等”。分析的问题(极端情况是通过将c>=max(floor(g(i)/c))简单地将不规则间隔的时间序列分解为规则间隔而给出的 Edition2(只是为了好玩):图像说明了在不规则间隔的时间序列甚至点过程中缺失的值。

6
时间序列分类的功能
我考虑基于可变长度时间序列的(多类)分类问题,即找到函数 通过时间的全局表示,由固定大小为的一组选定特征独立于, 然后对该功能集使用标准分类方法。 我对预测不感兴趣,即预测˚F (X Ť)= ÿ ∈ [ 1 .. ķ ]TTTf(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, viviv_iDDDTTTϕ(XT)=v1,…,vD∈R ,ϕ(XT)=v1,…,vD∈R ,\phi(X_T) = v_1, \dots, v_D \in \mathbb{R}~,xT+1xT+1x_{T+1}。例如,我们可以分析人的行走方式以预测其性别。 我可能要考虑哪些标准功能? 例如,我们可以明显地使用序列的均值和方差(或更高阶矩),也可以查看频域,就像该序列的离散傅里叶变换(或离散小波变换)的某个间隔中包含的能量一样。

4
如何统计比较两个时间序列?
我有两个时间序列,如下图所示: 该图显示了两个时间序列的全部细节,但是如果需要,我可以轻松地将其简化为巧合的观测值。 我的问题是:我可以使用哪些统计方法来评估时间序列之间的差异? 我知道这是一个相当广泛且模糊的问题,但我似乎在任何地方都找不到很多介绍性材料。正如我所看到的,需要评估两个不同的方面: 1.值是否相同? 2.趋势是否相同? 您会建议使用哪种统计测试来评估这些问题?对于问题1,我显然可以评估不同数据集的均值并寻找分布的显着差异,但是有没有一种方法可以考虑到数据的时间序列性质呢? 对于问题2-是否有类似Mann-Kendall检验的东西来寻找两个趋势之间的相似性?我可以对两个数据集进行Mann-Kendall检验并进行比较,但是我不知道这是否是一种有效的处理方法,或者是否有更好的方法? 我正在R中进行所有这些操作,因此,如果您建议测试使用R包,请告诉我。
43 r  time-series 

2
为什么将MA(q)时间序列模型称为“移动平均值”?
当我阅读与时间序列有关的“移动平均值”时,我认为类似或加权平均值,例如0.5xt−1+0.3xt−2+0.2xt−3。(我意识到这些实际上是AR(3)模型,但这是我的大脑要跳到的模型。)为什么MA(q)模型的误差项或“创新”公式?是什么{ε}与移动平均办?我觉得我似乎缺少一些直觉。(xt−1+xt−2+xt−3)3(xt−1+xt−2+xt−3)3\frac{(x_{t-1} + x_{t-2} + x_{t-3})}30.5xt−1+0.3xt−2+0.2xt−30.5xt−1+0.3xt−2+0.2xt−30.5x_{t-1} + 0.3x_{t-2} + 0.2x_{t-3}{ϵ}{ϵ}\{\epsilon\}

5
如何使时间序列平稳?
除了求差以外,还有什么其他方法可以使静止时间序列平稳? 如果可以通过滞后算子使其平稳,则通常将其称为“ p阶积分 ” 。(1−L)PXt(1−L)PXt(1-L)^P X_t

5
动态时间规整聚类
使用动态时间规整(DTW)进行时间序列聚类的方法是什么? 我已经读过有关DTW的方法,该方法可以找到两个时间序列之间的相似性,而它们可能会随时间变化。我可以将这种方法用作k-means等聚类算法的相似性度量吗?

5
R中的时间序列“聚类”
我有一组时间序列数据。尽管每个时间序列中的实际日期可能并不都完全“排队”,但每个序列都涵盖相同的时期。 这就是说,如果将时间序列读入2D矩阵,它将看起来像这样: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 我想编写一个R脚本,将时间序列{T1,T2,... TN}分离为“家庭”,其中一个家庭被定义为一系列“趋于彼此同情”的系列。 对于“聚类”部分,我将需要选择/定义一种距离度量。我不确定如何处理此问题,因为我正在处理时间序列,并且一对可能在一个间隔内同情移动的序列可能不会在随后的间隔内这样做。 我敢肯定,这里有比我更多的有经验/聪明的人,因此,对于任何建议,关于用于距离度量的算法/启发式方法以及如何在时间序列聚类中使用该算法/方法的想法,我将不胜感激。 我的猜测是,尚无成熟的统计方法来执行此操作,因此,我将非常有兴趣了解人们如何处理/解决此问题-像统计学家一样思考。

2
如何在R中找到一个适合半正弦模型的模型?
我想假设波罗的海的海面温度年复一年,然后用函数/线性模型对其进行描述。我的想法是只将年输入为十进制数字(或num_months / 12),然后得出当时的温度。将其扔到R中的lm()函数中,它无法识别正弦数据,因此只能产生一条直线。因此,我将sin()函数放在I()括号内,并尝试了一些值以手动适合该函数,这接近我想要的值。但是海洋在夏天变暖得更快,而在秋天变慢了……所以第一年的模型是错误的,几年后变得更正确,然后在将来我猜想它会变得更多再犯错。 如何获得R来为我估算模型,所以我不必自己猜测数字?这里的关键是我希望它年复一年地产生相同的值,而不仅仅是一年正确。如果我对数学了解更多,也许我可以将其估计为类似于Poisson或Gaussian之类的东西,而不是sin(),但我也不知道该怎么做。任何帮助您接近一个好的答案将不胜感激。 这是我使用的数据,以及到目前为止显示结果的代码: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

4
预测和预测之间的区别?
我想知道预测和预测之间有什么区别和关系?特别是在时间序列和回归方面? 例如,我是否纠正: 在时间序列中,预测似乎意味着在给定时间序列的过去值的情况下估计未来值。 在回归中,预测似乎意味着估计给定数据的值是未来,当前还是过去。 谢谢并恭祝安康!

5
交叉验证时间序列分析
我一直在使用R中的插入符号包来建立用于分类和回归的预测模型。Caret提供了一个统一的界面,可以通过交叉验证或引导绑定来调整模型超参数。例如,如果您要建立一个简单的“最近邻居”模型进行分类,则应使用多少个邻居?2?10个?100?Caret通过重新采样数据,尝试不同的参数,然后对结果进行汇总以确定哪个可产生最佳的预测准确性,来帮助您回答这个问题。 我喜欢这种方法,因为它为选择模型超参数提供了一种可靠的方法,并且一旦您选择了最终的超参数,就可以使用分类模型的准确性对模型的“好”程度进行交叉验证。和RMSE用于回归模型。 我现在有一些时间序列数据,可能要使用随机森林来构建回归模型。考虑到数据的性质,有什么好的方法可以评估模型的预测准确性?如果随机森林不能真正应用于时间序列数据,那么为时间序列分析构建准确的集成模型的最佳方法是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.