Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。



14
在线检测一般时间序列的异常值的简单算法
我正在处理大量时间序列。这些时间序列基本上是每10分钟进行一次网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量)。 我想要一种用于进行在线“异常值检测”的简单算法。基本上,我想将每个时间序列的整个历史数据保存在内存中(或保存在磁盘上),并且我想检测实时场景中的任何异常值(每次捕获一个新样本)。实现这些结果的最佳方法是什么? 我目前正在使用移动平均线来消除一些噪音,但是接下来呢?对整个数据集而言,诸如标准差,疯狂……之类的简单事情无法很好地工作(我不能假设时间序列是固定的),我想要更“准确”的东西,最好是一个黑匣子,例如: double outlier_detection(double *向量,double值); 其中vector是包含历史数据的double数组,返回值是新样本“ value”的异常得分。

1
如何将神经网络应用于时间序列预测?
我是机器学习的新手,我一直在尝试找出如何将神经网络应用于时间序列预测。我发现了与查询有关的资源,但似乎仍然有些迷茫。我认为没有太多细节的基本解释会有所帮助。 假设我在几年中每个月都有一些价格值,并且我想预测新的价格值。我可以获取过去几个月的价格列表,然后尝试使用K-Nearest-Neighbor查找过去的类似趋势。我可以让他们使用变化率或过去趋势的其他属性来尝试预测新价格。我正在尝试找出如何将神经网络应用于相同的问题。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

5
使用k折交叉验证进行时序模型选择
问题: 我想确定一点,使用带有时间序列的k折叠交叉验证是否简单明了,还是在使用它之前需要特别注意? 背景: 我正在建模一个6年的时间序列(使用半马尔可夫链),每5分钟有一个数据样本。为了比较多个模型,我使用了6倍交叉验证,即通过分离6年中的数据,所以我的训练集(用于计算参数)的长度为5年,而测试集的长度为1年。我没有考虑时间顺序,因此我的不同设置是: fold 1:训练[1 2 3 4 5],测试[6] 第二折:训练[1 2 3 4 6],测试[5] 第三折:训练[1 2 3 5 6],测试[4] 第四步:训练[1 2 4 5 6],测试[3] 第五步:训练[1 3 4 5 6],测试[2] 第六步:训练[2 3 4 5 6],测试[1]。 我提出的假设是,每年彼此独立。我该如何验证?有没有参考资料显示k倍交叉验证与时间序列的适用性。

9
我应该使用什么算法来检测时间序列的异常?
背景 我在网络运营中心工作,我们监视计算机系统及其性能。要监视的关键指标之一是当前连接到我们服务器的访问者/客户数量。为了使其可见,我们(Ops团队)收集了诸如时间序列数据之类的指标并绘制了图表。Graphite允许我们做到这一点,它有一个非常丰富的API,我可以用它来构建警报系统,以便在突然(主要是)突然下降和其他更改发生时通知我们的团队。目前,我已基于avg值设置了一个静态阈值,但是由于白天和一周中的不同负载(季节性因素),它不能很好地工作(存在很多假阳性)。 看起来像这样: 实际数据(一个度量标准的示例,时间范围为15分钟;第一个数字是用户数,第二个-时间戳): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 我要完成的工作 我创建了一个Python脚本,该脚本接收最近的数据点,将它们与历史平均值进行比较,并在发生突然变化或下降时发出警报。由于季节性因素,“静态”阈值无法正常运行,脚本会生成误报警报。我想提高警报算法的准确性,使其在不不断调整警报阈值的情况下工作。 我需要什么建议和发现的东西 通过谷歌搜索,我发现我正在寻找用于异常检测的机器学习算法(无监督算法)。进一步的调查表明,其中有很多,很难理解哪种情况适用于我的情况。由于我的数学知识有限,我无法阅读复杂的学者论文,并且正在寻找对该领域的初学者来说简单的东西。 我喜欢Python并且对R有点熟悉,因此很高兴看到这些语言的示例。请推荐一本好书或文章,这将有助于我解决问题。谢谢您的时间,请原谅我这么长时间的描述 有用的链接 类似问题: 时间序列和异常检测 使用Python进行时间序列异常检测 时间序列异常 时间序列异常检测算法 小波在基于时间序列的异常检测算法中的应用 我应该使用哪种算法? …

10
外推有什么问题?
我记得在统计课上读本科时曾听说过为什么外推是个坏主意。此外,在线上有各种来源对此发表了评论。还有它一提这里。 谁能帮我理解为什么外推是个坏主意?如果是这样,那么预测技术在统计上不是无效吗?

3
使用递归神经网络进行时间序列分析的正确方法
递归神经网络与“常规”神经网络不同,因为它们具有“内存”层。由于这一层,在时间序列建模中应该使用递归NN。但是,我不确定我是否正确理解如何使用它们。 假设我有以下时间序列(从左到右):,[0, 1, 2, 3, 4, 5, 6, 7]我的目标是i使用点i-1和i-2作为输入来预测-th个点(每个i>2)。在“常规”非重复ANN中,我将按以下方式处理数据: target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 然后,我将创建一个具有两个输入和一个输出节点的网络,并使用上面的数据对其进行训练。 如果是递归网络,如何改变这一过程(如果有的话)?

6
可以使用哪种方法检测数据的季节性?
我想检测收到的数据的季节性。我发现了一些方法,例如季节性子序列图和自相关图,但问题是我不了解如何读取图表,有人可以帮忙吗?另一件事是,是否有其他方法可以在有或没有图形的最终结果的情况下检测季节性?

5
使用深度学习进行时间序列预测
我是深度学习领域的新手,对我来说,第一步是从deeplearning.net网站阅读有趣的文章。在有关深度学习的论文中,Hinton等人大多谈论将其应用于图像问题。有人可以回答我吗?它可以应用于预测时间序列值(财务,互联网流量等)的问题吗?如果可以的话,我应该重点关注哪些重要事项?

2
移动平均过程的真实例子
您能否举一些真实的时间序列示例,其移动平均过程为阶,即 是否有先验的理由成为好的模型?至少对我来说,自回归过程似乎很容易直观地理解,而MA过程乍一看似乎并不自然。请注意,我对这里的理论结果(例如沃尔德定理或可逆性)不感兴趣。qqqÿŤ= ∑我= 1qθ一世εt − i+ εŤ, 其中 εŤ〜ñ(0 , σ2)yt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) 作为我要寻找的示例,假设您的每日股票收益为。然后,平均每周股票收益将具有MA(4)结构作为纯统计伪像。[RŤ〜IID (0 ,σ2)rt∼IID(0,σ2)r_t \sim \text{IID}(0, \sigma^2)

6
高效的在线线性回归
我正在分析一些我想执行普通线性回归的数据,但是这是不可能的,因为我正在处理具有连续输入数据流的在线设置(这将很快对于内存变得太大)并且需要消耗参数时更新参数估算值。即我不能只将其全部加载到内存中并对整个数据集执行线性回归。 我假设一个简单的线性多元回归模型,即 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 创建线性回归参数和的连续更新估计的最佳算法是什么?b一种A\mathbf Abb\mathbf b 理想情况下: 我想要一种算法,每次更新的空间为,时间复杂度最高,其中是自变量()的维数,是因变量()。ñ X中号ÿø(Ñ⋅ 中号)O(N⋅M)\mathcal O(N\cdot M)ñNNXx\mathbf x中号MMÿy\mathbf y 我希望能够指定一些参数来确定每个新样本更新多少参数,例如0.000001表示下一个样本将提供参数估计的百万分之一。对于遥远的过去样本,这将产生某种指数衰减。

5
状态空间模型和卡尔曼滤波器在时间序列建模中的缺点是什么?
考虑到状态空间模型和KF的所有良好特性,我想知道- 状态空间建模并使用卡尔曼滤波器(或EKF,UKF或粒子滤波器)进行估计的缺点是什么?笼统地说,是ARIMA,VAR或即席/启发式方法之类的常规方法。 它们难于校准吗?他们是否复杂且很难看到模型结构的变化将如何影响预测? 或者,换种说法-传统ARIMA,VAR与状态空间模型相比有什么优势? 我只能想到状态空间模型的优点: 它可以轻松地处理某些静态模型的结构破坏,移位,时变参数-只需使这些参数成为状态空间模型的动态状态,模型便会自动适应任何参数移位; 它非常自然地处理丢失的数据,只需执行KF的过渡步骤,而不执行更新步骤; 它允许更改状态空间模型本身的动态参数(噪声和过渡/观测矩阵的协方差),因此,如果您当前的观测值来自与其他观测值略有不同的源,则无需进行任何操作即可轻松将其合并到估计中有什么特别的 使用上述属性,可以轻松处理不规则空间的数据:根据观察之间的间隔每次更改模型,或者使用规则的间隔并将没有观察的间隔视为丢失数据; 它允许在同一模型中同时使用来自不同来源的数据来估算一个基础数量; 它允许从几个可解释的,不可观察的动态成分构建模型并进行估计; 任何ARIMA模型都可以以状态空间形式表示,但是只有简单的状态空间模型可以以ARIMA形式精确表示。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.