Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

2
评估细胞信号数据时间序列中的峰值
我正在测量细胞信号测量中是否存在响应。我要做的是首先对数据的时间序列应用平滑算法(Hanning),然后检测峰值。我得到的是: 如果我想使响应的检测比“是的,您看到连续下降的趋势有所提高”更加客观,那么最好的方法是什么?通过线性回归确定峰与基线之间的距离吗? (我是python编码人员,几乎不了解统计信息) 谢谢

2
如何找到图表何时达到峰值和平稳状态?
这听起来很基本,但是我有一个问题:我有一个窗口大小为300的数据队列。新数据在一端添加,旧值从另一端删除。 我希望队列数据或多或少保持一致,例如:10,12,15,10,20,然后开始急剧上升:15,10,20,22,25,26,28,30,32 ...一路上升到150左右。那里的数据可能会有所波动,然后以相似的斜率(120,118,116,115 ...)下降到20左右。 我正在尝试以编程方式确定该数据系列中的转折点,但是我的代码检测峰值的次数比我想的要多。如何确定图形何时上升,何时达到确定的转折点以及何时开始下降?我应该尝试看看变化率的变化率吗?

3
时序电机数据分类的最佳算法
我正在从事机器控制项目。我们可以在运行期间测量电动机的电流。下面是来自成功执行操作的两个电机的样本数据。红色迹线显示来自一个电动机的电流,蓝色迹线显示来自另一电动机的电流。我想尝试提出一种算法来识别机器行为问题。问题可能是电动机电流过高,电动机电流接近于零,操作结束时电流增加,时间序列比正常时间短,一般而言,以下情况都不像典型操作。谁能建议一个好的算法来实现这一目标?我唯一熟悉的是神经网络。我已将实际数据的Excel文件放入电机电流下

1
面板研究中时间序列中缺失计数数据的多重估算
我正在尝试解决一个涉及面板数据研究中缺失数据的估算的问题(不确定我是否正确使用了“面板数据研究”,正如我今天所学到的那样。)我拥有2003年的总死亡计数数据到2009年,所有8个地区和4个年龄段的男性和女性的所有月份。 数据框看起来像这样: District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ 106 …

6
按时间序列测试稳定性
给定时间序列稳定后,是否有标准(或最佳)测试方法? 一些动机 我有一个随机动态系统,在每个时间步中输出一个值。该系统具有一定的瞬态行为,直到时间步长为止,然后稳定在某个平均值并带有一些误差。没有,,或错误都在我的面前。我愿意做一些假设(例如围绕高斯误差)XŤxtx_tt∈Nt∈Nt \in \mathbb{N}t∗t∗t^*x∗x∗x^*t∗t∗t^*x∗x∗x^*x∗x∗x^*例如),但我需要的先验假设越少越好。我唯一可以肯定的是,系统只会收敛到一个稳定点,并且稳定点周围的波动要比瞬变期间的波动小得多。这个过程也是单调的,我可以假设在附近开始并朝着爬升(在稳定在之前可能会有点过冲)。x0x0x_0000x∗x∗x^*x∗x∗x^* 该数据将从模拟来来了,我需要的稳定性试验,作为我的模拟静止状态(因为我只在过渡周期内感兴趣)。xtxtx_t 精确的问题 如果仅访问某个有限的时间值,那么是否有一种方法可以以合理的精度说出随机动态系统已经稳定在某个点?如果测试还返回,和附近的错误,则奖励点。但是,这不是必需的,因为有简单的方法可以在仿真完成后弄清楚这一点。x0...xTx0...xTx_0 ... x_TTTTx∗x∗x^*x∗x∗x^*t∗t∗t^*x∗x∗x^* 天真的方法 首先浮现在脑海中的幼稚方法(例如,我曾将其用作某些神经网络的获胜条件)是选择参数和,那么如果在最后的时间步长中没有和两点使得然后我们得出结论,我们已经稳定下来。这种方法很简单,但并不十分严格。这也迫使我猜测和应该是什么好值。TTTEEETTTxxxx′x′x'x′−x>Ex′−x>Ex' - x > ETTTEEE 似乎应该有一种更好的方法来回顾过去的某些步骤(或以某种方式对旧数据进行折价),从该数据中计算标准误差,然后测试是否需要其他步骤(或其他步骤)折扣方案)时间序列未超出此误差范围。我提供了一个稍微不太天真但仍然很简单的策略作为答案。 任何帮助,或对标准技术的引用,不胜感激。 笔记 我还将这个问题按原样交叉发布到MetaOptimize上,并在更具有仿真风格的计算科学中进行了描述。

5
自动确定阈值以进行异常检测
我正在处理时间序列的异常分数(背景是计算机网络中的异常检测)。每分钟,我都会得到一个异常分数,它告诉我网络的当前状态有多么“意外”或异常。分数越高,当前状态越异常。理论上接近5分是可能的,但几乎不会发生。XŤ∈ [ 0 ,5 ]xt∈[0,5]x_t \in [0, 5] 现在,我想提出一种算法或公式,该算法或公式可以自动确定此异常时间序列的阈值。一旦异常分数超过此阈值,就会触发警报。 下面的频率分布是一个超过1天的异常时间序列的示例。然而,这是不是安全的假设,每一个异常的时间序列是要像她那样。在此特殊示例中,异常阈值(例如.99分位数)将是有意义的,因为最右边的分数可被视为异常。 并且具有与时间序列相同的频率分布(由于时间序列中没有更高的异常分数,因此它的范围从0到1): 不幸的是,频率分布可能具有一定的形状,其中.99分位数无效。下面是一个示例。右尾非常低,因此,如果将.99分位数用作阈值,则可能会导致许多误报。该频率分布似乎不包含异常,因此阈值应位于0.25左右的分布范围之外。 总结起来,这两个示例之间的区别在于第一个示例似乎表现出异常,而第二个则没有。 从我幼稚的角度来看,该算法应考虑以下两种情况: 如果频率分布具有较大的右尾(即几个异常分数),则.99分位数可能是一个很好的阈值。 如果频率分布的右尾非常短(即没有异常分数),则阈值应位于分布之外。 / edit:也没有基本事实,即可以使用带标签的数据集。因此,该算法针对异常得分的性质是“盲目的”。 现在,我不确定如何用算法或公式来表达这些观察结果。有人建议如何解决这个问题吗?我希望我的解释足够充分,因为我的统计背景非常有限。 谢谢你的帮助!

4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!

6
一天中事物图表的好通用名称是什么?
我们正在创建一个图表,显示给定时间段内每天的流量。因此,y轴是流量,x轴是午夜,凌晨1点,凌晨2点等。也可能是一周中的几天。这种图表的通用名称是什么?我想出了“周期图”。这是标准吗?有一个吗? 更新: 为了更加清楚起见,顶部图表中显示的不是一天,而是许多天的汇总。例如,在过去的一个月中,上午6点平均比中午低。同样,在去年的底部图表中,周六的流量有所下降。


1
时间序列重要性测试的时间分辨率是多少?
我需要有关池的适当级别的一些指导,以用于对时间序列数据进行均值检验。我担心时间伪复制和牺牲伪复制,这在此应用程序中似乎很紧张。这是参考心理研究而不是操纵性实验。 考虑一个监视练习:一个传感器系统在整个池塘的宽度和深度的多个位置测量溶解氧(DO)含量。每天记录两次每个传感器的测量值,因为已知溶解氧每天都会变化。将这两个值取平均值以记录每日值。每周一次,将每日结果在空间上汇总,以得出整个池塘每周一次的DO浓度。 这些每周的结果会定期报告,并进一步汇总-将每周的结果平均以得出池塘每月的DO浓度。将月度结果取平均值即可得出年值。每年的平均值本身是平均值,以报告池塘的十年溶解氧浓度。 目的是回答以下问题:池塘在X年的DO浓度是较高,较低还是与Y年的浓度相同?最近十年的平均溶解氧浓度是否与前十年的平均溶解氧浓度不同?池塘中的溶解氧浓度会响应大量的大量输入,因此变化很大。需要进行重要性检验。该方法是使用均值的T检验比较。假定十年值是年均值,而年值是月均值,这似乎是适当的。 问题是 –您可以从每月DO值或每年DO值计算十年平均值和这些平均值的T值。平均值当然不会改变,但是置信区间和T值的宽度会改变。由于使用月度值可获得较高的N数量级,因此,如果您选择该路线,则CI通常会明显收紧。对于在均值上观察到的差异的统计显着性而言,这可以得出与使用年度值相反的结论,即对相同数据使用相同的检验。 对这种差异的正确解释是什么? 如果使用月度结果来计算测试统计量的年代平均值差异,那么您是否违反了时间伪复制?如果使用年度结果来计算年代际测验,您是在牺牲信息并因此进行伪复制吗?

2
LOESS时间序列模型的增量学习
我目前正在处理一些时间序列数据,我知道我可以使用LOESS / ARIMA模型。 数据被写入长度为1000的向量(它是一个队列),每15分钟更新一次, 因此,当新数据推入向量时,旧数据将弹出。 我可以在调度程序上重新运行整个模型,例如,每15分钟重新训练一次模型,也就是使用整个1000值来训练LOESS模型,但是它效率很低,因为每次只插入一个值,而另一个999个值则被插入仍与上次相同。 那么如何才能获得更好的性能呢? 非常感谢

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 


3
如何对时间序列进行预测?
我对时间序列数据的分析并不熟悉。但是,我有一个简单的预测任务要解决。 我从一个普通的生成过程中获得了大约五年的数据。每年代表具有非线性成分的单调递增函数。在每年的40周周期中,我每周都有计数。过程开始,函数从零开始,在函数的前半部分相当快地增加,在后半部分中变慢,然后在最后五周内变平。多年以来,这一过程是一致的,每年各个细分市场的变化率和数量差异很小。 y1={0,Nt1,Nt2,...Nt39,Nt40}y1={0,Nt1,Nt2,...Nt39,Nt40} y_{1}=\{0, N_{t1}, N_{t2}, ... N_{t39}, N_{t40}\} ⋮⋮ \vdots y5={0,Nt1,Nt2,...Nt39,Nt40}y5={0,Nt1,Nt2,...Nt39,Nt40} y_{5}=\{0, N_{t1}, N_{t2}, ... N_{t39}, N_{t40}\} 哪里 NtxNtxN_{tx} 等于时间x的计数。 目标是 NNN 在 txtxtx (或更好 t0t0t0 至 txtxtx,或指向该点的坡度)并预测 NNN 在 t40t40t40。例如,如果Nt10Nt10N_{t10} 是5000的期望值是多少 Nt40Nt40N_{t40}那年。因此,问题是,您将如何为此类数据建模?总结和可视化非常容易。但是我想要一个模型来促进预测并结合误差度量。

7
大小不相等的两个变量之间的相关性
在我正在处理的问题中,我有两个随机变量X和Y。我需要弄清楚这两个变量之间的相关性如何,但是它们的维数不同。X的行空间的等级为4350,Y的行空间的等级实质上较大,为数万。X和Y的列数相同。 我需要测量两个变量之间的相关性,而Pearson的r要求X和Y具有相等的维数(至少R要求两个rv是)。 我是否有希望在这两者之间建立关联,还是应该找到一些方法来删减Y的观测值? EDIT 从评论中添加信息,应该在问题中。 我想我忘了提这个了。X和Y是股票价格。X公司的上市时间比Y公司短得多。我想说一下X和Y的价格之间的相关性。在X和Y都存在的一段时间内,我肯定可以得到一个相关性。我想知道是否知道X并不存在的Y的额外几年的股价为我提供了任何其他信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.