Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

5
使用ARIMA和LSTM进行时间序列预测
我要处理的问题是预测时间序列值。我正在一次查看一个时间序列,例如,基于15%的输入数据,我想预测其未来值。到目前为止,我遇到了两种模型: LSTM(长期短期记忆;一类递归神经网络) 有马 我都尝试过并阅读了一些文章。现在,我试图更好地了解如何比较两者。到目前为止,我发现了什么: 如果我们要处理大量数据并且有足够的训练数据,那么LSTM会更好地工作,而ARIMA对于较小的数据集则更好(这是正确的吗?) ARIMA需要一系列(p,q,d)必须基于数据计算的参数,而LSTM不需要设置此类参数。但是,我们需要为LSTM调整一些超参数。 编辑:我在这里读到一篇很棒的文章时注意到的两者之间的主要区别是,ARIMA只能在固定时间序列(没有季节性,趋势等)下表现良好,如果需要,想要使用ARIMA 除了上述特性之外,我找不到其他可以帮助我选择最佳模型的要点或事实。如果有人能帮助我找到文章,论文或其他东西,我将非常感谢(到目前为止,还没有运气,只是到处都是一些一般性意见,而没有基于实验的内容。) 我不得不提到,最初我是在处理流数据,但是现在我使用的是NAB数据集,其中包括50个数据集,最大大小为2万个数据点。


4
向时间序列模型LSTM添加功能
一直在阅读有关LSTM及其在时间序列上的用法的文章,虽然有趣但同时又很困难。我一直难以理解的一件事是向时间序列功能列表中添加其他功能的方法。假设您的数据集是这样的: t-3,t-2,t-1,输出 现在说您知道您有一个确实会影响输出的功能,但不一定是时间序列功能,比如说外面的天气。您可以添加一下这些内容吗,LSTM就能区分出时间序列方面和什么方面?

2
如何应对季节性或其他模式变化的时间序列?
背景 我正在研究电度表读数的时间序列数据集。系列的长度因米而异-有的我有几年,有的则只有几个月,等等。许多都表现出明显的季节性,并且通常是多层的-在一天,一周或一年之内。 我一直在努力的事情之一就是这些时间序列的聚类。目前,我的工作是学术性的,在我也对数据进行其他分析时,我有一个特定的目标来进行一些聚类。 我做了一些初步工作,计算了各种功能(周末与工作日使用的百分比,不同时间段使用的百分比,等等)。然后,我继续着眼于使用动态时间规整(DTW)获得不同序列之间的距离,以及基于差值进行聚类,并且发现了与此相关的几篇论文。 题 特定系列的季节性变化会导致我的聚类不正确吗?如果是这样,我该如何处理? 我担心的是,在时间序列中的模式已更改的情况下,DTW获得的距离可能会产生误导。这可能导致不正确的群集。 如果以上不清楚,请考虑以下示例: 例子1 仪表从午夜到晚上8点具有较低的读数,然后读数在接下来的一个小时内急剧增加,从上午9点直到5PM保持较高的读数,然后在接下来的一个小时内急剧下降,然后从6PM直到午夜保持较低的读数。仪表连续数月每天都保持这种模式,但随后变为一天中读数始终保持在恒定水平的模式。 例子2 仪表显示每个月消耗的能量大致相同。几年后,它变成一种模式,在夏季,能源使用量较高,然后恢复到正常水平。 可能的方向 我想知道是否可以继续比较整个时间序列,但是如果模式发生很大变化,可以将它们分开并考虑为一个单独的序列。但是,为此,我需要能够检测到此类更改。另外,我只是不知道这是合适的方法还是处理数据。 我还考虑过拆分数据并将其视为许多单独的时间序列。例如,我可以将每天/米的组合视为一个单独的系列。但是,如果我想考虑每周/每月/每年的模式,则需要做类似的事情。我认为这行得通,但可能会很繁重,如果我找不到更好的方法,我不愿意走这条路。 进一步说明 这些是评论中出现的事情,或者由于评论而我想到的事情,这可能是相关的。我把它们放在这里,这样人们就不必阅读所有内容来获取相关信息。 我正在使用Python工作,但是在R更适合的地方使用了rpy。不过,我不一定要寻找Python答案-如果有人对应该做什么有实际的答案,我很乐意自己找出实现细节。 我有很多工作的“草稿”代码-我已经完成了一些DTW运行,已经完成了几种不同类型的集群,等等。我想我在很大程度上理解了我的发展方向以及我的目标。我真正寻找的是与我在查找距离,运行聚类等之前处理数据的方式有关。鉴于此,我怀疑答案是相同的,无论是通过DTW还是通过更简单的欧氏距离(ED)计算序列之间的距离。 我发现这些论文特别有助于您了解时间序列和DTW,如果需要主题领域的某些背景知识,它们可能会有所帮助:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm

1
使用LSTM进行时间序列预测:使时间序列平稳的重要性
在关于平稳性和差分的链接中,已经提到诸如ARIMA之类的模型需要平稳的时间序列进行预测,因为其统计特性(例如均值,方差,自相关等)随时间是恒定的。由于RNN具有更好的学习非线性关系的能力(如此处给出:用于时间序列预测的递归神经网络),并且在数据量较大时,其性能要优于传统的时间序列模型,因此了解平稳性至关重要数据会影响其结果。我需要知道答案的问题如下: 对于传统的时间序列预测模型,时间序列数据的平稳性使其更易于预测,原因和方式如何? 在使用LSTM建立时间序列预测模型的同时,使时间序列数据平稳是否重要?如果是这样,那为什么呢?

7
如何根据以前的时间序列数据预测流量?
如果我有一家零售商店,并且有办法衡量每分钟有多少人进入我的商店,并对数据加盖时间戳,我如何预测未来的人流量? 我研究过机器学习算法,但不确定使用哪种算法。在我的测试数据中,与我尝试过的其他方法(例如KNN(我认为是合理的参数和距离函数))相比,逐年趋势更为准确。 似乎这似乎与财务模型类似,您可以在其中处理时间序列数据。有任何想法吗?



1
使用多个时间序列的RNN
我正在尝试使用时间序列作为输入来创建神经网络,以便根据每个序列的类型对其进行训练。我读到,使用RNN可以将输入分为几批,然后将时间序列的每个点都用于单个神经元,并最终训练网络。 我正在尝试做的是使用多个时间序列作为输入。因此,例如,您可能会收到来自两个传感器的输入。(因此有两个时间序列),但是我想同时使用它们以得到最终结果。 另外,我也不打算预测时间序列的未来值,而是要根据所有这些值进行分类。 我应该如何解决这个问题? 有没有办法使用多个时间序列作为RNN的输入? 我应该尝试将时间序列汇总为一个吗? 还是我应该只使用两个不同的神经网络?如果最后一种方法是正确的,那么如果时间序列的数量增加了,这是否也不会占用大量计算机资源呢?
14 time-series  rnn 

4
LSTM时间序列预测的预测间隔
是否有一种方法可以根据LSTM(或其他递归)神经网络在时间序列预测周围计算预测间隔(概率分布)? 假设举例来说,根据最近观察到的10个样本(t-9至t),我预测了10个样本(t + 1至t + 10),我希望在t + 1的预测会更多比t + 10时的预测准确。通常,可能会在预测周围绘制误差线以显示间隔。使用ARIMA模型(在正态分布误差的假设下),我可以围绕每个预测值计算预测间隔(例如95%)。我可以从LSTM模型中计算出相同的值(或与预测间隔有关的值)吗? 我一直在Keras / Python的LSTMs,下面很多来自例子machinelearningmastery.com,从我的示例代码(见下文)的基础上的。我正在考虑将问题重新分类为离散的分类,因为这会使每个类产生置信度,但这似乎是一个糟糕的解决方案。 有几个类似的主题(例如以下主题),但是似乎没有什么可以直接解决LSTM(或其他)神经网络的预测间隔问题: /stats/25055/how-to-calculate-the-confidence-interval-for-time-series-prediction 使用ARIMA和LSTM进行时间序列预测 from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from math import sin from matplotlib import pyplot import numpy as np # Build an LSTM network and train def fit_lstm(X, y, …

1
将int的pandas列转换为timestamp数据类型
我有一个数据框,其中除其他外,包含一列自1970-1-1以来经过的毫秒数。我需要将此int列转换为时间戳数据,因此我可以通过将timestamp列系列添加到一个完全由1970-1-1组成的datetime值的序列中,最终将其转换为datetime数据列。 我知道如何将一系列字符串转换为日期时间数据(pandas.to_datetime),但是我找不到或想出任何解决方案将整列整数转换为日期时间数据或时间戳数据。

1
识别模糊记号序列中的语法
我有一些文本文档,其中主要包含项目列表。 每个项目都是一组不同名称的多个标记:名字,姓氏,出生日期,电话号码,城市,职业等。标记是一组单词。 项目可以位于多行上。 文档中的项目具有大致相同的令牌语法,但不一定必须完全相同。 它们可能是项目之间以及项目内部的更多/更少标记。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目的是识别所使用的语法,例如 Occupation City 最后找出所有项目,甚至认为它们不完全匹配。 为了简短易懂,让我们改用一些别名A,B,C,D ...来指定这些标记类型。 例如 A B C D F A B C …

1
根据2个功能和事件时间序列对客户进行分类
在设计算法的下一步时,我需要帮助。 由于NDA的原因,我无法透露太多,但我会尽量做到通俗易懂。 基本上,在算法中经过几个步骤之后,我得到了: 对于我拥有的每个客户及其一个月内发生的事件,在第一步中,我将事件分为几类(每位客户将事件分为从1到x等于1到25之间的x的类别,通常,第一类别的事件密度高于其他类别。 我为每个类别和客户创建了一个时间序列,汇总每小时每小时的事件(获取完成这些事件的时间的模式)。我还使用了一些归一化变量,这些变量基于一个人在一个月(30天)内执行至少一个事件的天数,以及在一个事件中至少发生一个事件的天数中至少发生一个事件的天数事件(汇总所有群集)。第一个给了我一个月客户活跃度的比率,第二个给了这个类别与其他类别的权重。 决赛桌看起来像这样 |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | Events9AM Events10AM ... xx | 1 | 0,69 | 0,72 | 0,2 0,13 ... xx | 2 | 0,11 | 0,28 | 0,1 0,45 ... …

2
建模不均匀间隔的时间序列
我有一个连续变量,在一年中以不定期的间隔进行采样。有些日子每小时的观测不只一次,而另一些日子则没有几天。这使得检测时间序列中的模式特别困难,因为某些月份(例如10月)的采样很高,而另一些则没有。 我的问题是对这个时间序列建模的最佳方法是什么? 我相信大多数时间序列分析技术(例如ARMA)都需要固定频率。我可以汇总数据,以获取恒定的样本或选择非常详细的数据子集。使用这两个选项时,我将丢失原始数据集中的某些信息,这些信息可能会揭示不同的模式。 除了可以按周期分解系列之外,我还可以将整个数据集提供给模型,并期望它能够拾取模式。例如,我将分类变量中的小时,工作日和月份进行了转换,并尝试了具有良好结果的多元回归(R2 = 0.71) 我的想法是,诸如ANN之类的机器学习技术也可以从不均匀的时间序列中选择这些模式,但是我想知道是否有人尝试过这种方法,并且可以为我提供一些有关在神经网络中表示时间模式的最佳方法的建议。

3
如何为社交网络的成长提供动画效果?
我正在寻找一个库/工具来可视化添加新节点/边缘后社交网络的变化。 现有解决方案之一是SoNIA:Social Network Image Animator。它使您可以制作像这样的电影。 SoNIA的文档说,它现在已经坏了,除此之外,我更喜欢基于JavaScript的解决方案。所以,我的问题是:您是否熟悉任何工具,或者是否可以指出一些使该任务尽可能简单的库? 发布此问题后,我将深入探讨sigma.js,因此请考虑涵盖此库。 通常,我的输入数据如下所示: time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C 因此,这里我们有三个时间点(1、2、3),三个节点(A,B,C)和三个边,它们表示三个所考虑的节点之间的三元闭合。 而且,每个节点都有两个属性(年龄和性别),因此我希望能够更改节点的形状/颜色。 同样,在添加新节点之后,最好具有一些ForceAtlas2或类似的算法来调整图形的布局。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.