Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

4
功能主成分分析(FPCA):这是怎么回事?
功能主成分分析(FPCA)是我偶然发现且从未了解的内容。这是什么一回事呢? 请参见Shang,2011年的“功能主成分分析调查”,我在此引用: 由于“维数的诅咒”,PCA在分析功能数据时遇到了严重的困难(Bellman 1961)。“维数的诅咒”源自高维空间中的数据稀疏性。即使PCA的几何特性仍然有效,并且即使数值技术提供了稳定的结果,样本协方差矩阵有时也不能很好地估计总体协方差矩阵。为了克服这一困难,与PCA相比,FPCA提供了更多的信息来检查样本协方差结构[...] 我就是不明白。本文描述的缺点是什么?PCA难道不是处理“维数诅咒”等情况的最终方法吗?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
如何解释这些acf和pacf图
以下是每月数据系列的acf和pacf图。第二个图是带有ci.type ='ma'的acf: acf图中高值的持续性可能代表了长期的积极趋势。问题是这是否代表季节性变化? 我尝试查看有关此主题的其他站点,但不确定这些图是否显示季节性。 ACF和PACF图分析 帮助解释ACF-和PACF-图 帮助了解以下ACF图片 自相关和部分自相关解释 编辑:以下是滞后高达60的图形: 以下是diff(my_series)的图: 直到滞后60: 编辑:此数据来自:这是测试自杀人数数据中季节性影响的适当方法吗? 在这里,贡献者没有考虑值得一提的原始或差异系列的acf和pacf图(因此它一定不重要)。在几个地方仅引用了残差的acf / pacf图。

2
模拟给定功率和互谱密度的时间序列
给定它们的协方差矩阵(它们的功率谱密度(PSD)和交叉功率谱密度(CSD)),我很难生成一组固定的彩色时间序列。 我知道,给定两个时间序列和,我可以使用许多广泛使用的例程来估算其功率谱密度(PSD)和交叉谱密度(CSD)。和Matlab等中的功能。PSD和CSD组成协方差矩阵: yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)psd()csd()C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, ,通常是频率的函数。 fff 如果我想做相反的事情怎么办? 给定协方差矩阵,如何生成和y_ {J}(t)的实现?yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t) 请包括任何背景理论,或指出执行此操作的任何现有工具(Python中的任何工具都很好)。 我的尝试 以下是我尝试过的内容以及我注意到的问题的描述。本书读了很长一段时间,如果其中包含误用的术语,则抱歉。如果可以指出错误的地方,那将非常有帮助。但是我的问题是上面的粗体字。 PSD和CSD可以写为时间序列傅立叶变换的乘积的期望值(或整体平均值)。因此,协方差矩阵可以表示为: C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, 其中 ÿ(˚F)= (y〜一世(f)ÿ〜Ĵ(f))。ÿ(F)=(ÿ〜一世(F)ÿ〜Ĵ(F))。 \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 协方差矩阵是Hermitian矩阵,其实特征值可以为零或为正。因此,可以将其分解为 Ç(˚F)= X(f)λ1个2(f)一世λ12(f)X†(f),C(F)=X(F)λ1个2(F)一世λ1个2(F)X†(F), \mathbf{C}(f) …

3
测试光谱密度峰值的重要性
有时我们使用频谱密度图来分析时间序列中的周期性。通常,我们通过视觉检查来分析该图,然后尝试得出有关周期性的结论。但是,统计学家是否开发了任何测试来检查图中的峰值是否与白噪声在统计上有所不同?R专家是否开发了用于频谱密度分析和进行此类测试的软件包?如果有人可以帮助,那就太好了。 问候, 体育。

2
选择季节性分解方法
季节性调整是预处理数据以进行进一步研究的关键步骤。但是,研究人员对于趋势周期-季节分解有多种选择。最常见的季节性分解方法(根据经验文献中的引用次数)是X-11(12)-ARIMA,Tramo / Seats(均在Demetra +中实现)和的stl。试图避免在上述分解技术(或其他简单方法,如季节性虚拟变量)之间随机选择,我想知道一种可以有效选择季节性分解方法的基本策略。[R[RR 几个重要的子问题(也欢迎进入讨论链接)可能是: 这些方法有什么异同,优点和缺点?在某些情况下,一种方法比其他方法更可取吗? 您能否提供有关不同分解方法黑匣子内部内容的一般指南? 是否有一些特殊的技巧为方法选择参数(我并不总是对默认值感到满意,stl例如,有许多参数需要处理,有时我觉得我不知道如何正确选择这些参数)。 是否有可能提出一些(统计)标准来对时间序列进行季节性有效调整(相关图分析,频谱密度,小样本量标准或鲁棒性?)。

9
在时间序列的Ljung-Box测试中要使用多少个滞后?
在将ARMA模型拟合到时间序列后,通常通过Ljung-Box portmanteau测试(以及其他测试)来检查残差。Ljung-Box测试返回ap值。它有一个参数h,它是要测试的延迟数。有些文字建议使用h = 20;其他人建议使用h = ln(n); 大多数人并不说什么^ h使用。 而不是对h使用单个值,假设我对所有<50的h做Ljung-Box测试,然后选择h给出最小p值。这种方法合理吗?优点和缺点是什么?(一个明显的缺点是增加了计算时间,但这在这里不是问题。)是否有关于此的文献? 略作详细说明。...如果测试对所有h都给出p> 0.05 ,则显然时间序列(残差)通过了测试。我的问题涉及在h的某些值而不是其他值的情况下p <0.05时如何解释检验。

2
如何解释时间序列数据上的PCA?
Freeman et al。,2014年(最近的免费pdf 可在实验室网站上找到)中,我试图理解PCA在最近的期刊文章“使用集群计算大规模地映射大脑活动”中的用法。他们在时间序列数据上使用PCA,并使用PCA权重创建大脑图。 的数据是试平均成像数据,存储为矩阵(称为Ý在纸)与ñ体素(或成像位置在脑中)的时间点(单一刺激的长度到大脑) 。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 他们使用SVD得出(表示矩阵转置)。V⊤VY^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 作者指出 主成分(的列)是长度为向量,而得分(的列)是长度为(体素的数量)的向量,描述了每个体素在方向上的投影。由相应组件给出,在体积上形成投影,即全脑图。吨 ü ÑVV\mathbf Vt^t^\hat tUU\mathbf Unnn 因此,PC是的长度的矢量吨。如何解释PCA教程中通常表达的“第一个主要成分解释了最多的差异”?我们从具有许多高度相关的时间序列的矩阵开始-单个PC时间序列如何解释原始矩阵中的方差?我了解整个“点的高斯云到变化最大的轴的旋转”,但是不确定这与时间序列的关系。作者在陈述时所指的方向是什么:“分数(U的列)是长度为n的向量t^t^\hat tUU\mathbf Unnn (体素数),描述每个体素在相应分量给定的方向上的投影”?主分量时程如何具有方向? 要查看由主成分1和2的线性组合以及相关的脑图得出的时间序列的示例,请转到以下链接,然后将鼠标悬停在XY图中的点上。 我的第二个问题与他们使用主成分分数创建的(状态空间)轨迹有关。 这些通过取第一分数(在我上面已经概述的“视动”的例子的情况下)产生并投射单个试验(用于创建上述试验平均矩阵)到由等式主子空间:J=U⊤Y.J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. 从链接的电影可以看到,状态空间中的每条迹线代表整个大脑的活动。 与关联前两台PC得分的XY图的图形相比,有人能提供状态空间电影的每个“帧”意味着什么的直觉。在给定的“框架”下,将一个试验置于XY状态空间中的一个位置,将另一个试验置于另一个位置,这意味着什么?电影中XY绘图位置与问题第一部分提到的链接图中的主成分迹线有何关系?

5
减少高维数据以进行可视化的方法
我正在进行2D物理模拟,并在几个时间点上及时收集数据。这些离散点沿着垂直线,在轴向上有多条线。这使得数据集有效地为4D。 例如,假设我在(X,Y)坐标处具有收集点: (0,0),(1,0),(2,0) (0,1),(1,1),(2,1) (0,2),(1,2),(2,2) 并且在每个点上我都收集,其中P是压力,T是温度,U ,V是速度的X分量和Y分量。在模拟的每次迭代中,将为所有9个收集点存储这些变量。因此,我所有的数据在空间的每个离散点上都是连续的。{ P,Ť,U,V}{P,Ť,ü,V}\{P,T,U,V\}PPPŤŤTü,Vü,VU,V 例如,单个点的数据如下所示: 我有兴趣在所有时间显示所有点的压力以显示垂直和轴向波。如果要沿着一条直线(垂直或轴向)执行此操作,则可以使用带有轴(Y,时间,压力)的瀑布图。但是,如果我有3条垂直线和3条轴向线,那将是6个瀑布图,以完整地了解两个方向上的波动。空间坐标是离散变量,而场(在本例中为“压力”)和时间是连续的。 Ť ≈ 0.000125Ť≈0.000125t\approx0.000125 有没有一种方法可以一次显示所有内容?通常可以添加颜色以使“第四”维可见,但是还有另一种可能的方法吗?我计划尽可能多地绘制它,以查看是否有任何内容可以揭示其他人没有的信息,因此请提出任何想法。 如果模拟是3D并且我有5D结果数据集怎么办?这会改变可能的可视化方法吗?

3
ARIMA模型解释
我对ARIMA模型有疑问。假设我有一个要预测的时间序列ÿŤÿŤY_t,模型似乎是进行预测的好方法。 现在,滞后的表示我今天的系列受到先前事件的影响。这很有道理。但是错误的解释是什么?我以前的残差(我的计算还算可以接受)影响了我今天的系列的价值?该回归中的滞后残差是回归的乘积/余数,如何计算?ARIMA (2 ,2 )有马(2,2)\text{ARIMA}(2,2)Δ ÿŤ= α1个Δ ÿt − 1+ α2Δ ÿt − 2+ νŤ+ θ1个νt − 1+ θ2νt − 2ΔÿŤ=α1个ΔÿŤ-1个+α2ΔÿŤ-2+νŤ+θ1个νŤ-1个+θ2νŤ-2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} ÿÿY

1
具有许多零值的时间序列分析
这个问题实际上是关于火灾探测的,但是它与某些放射性衰变探测问题非常相似。观察到的现象既是零星的,也是高度可变的;因此,时间序列将由被可变值中断的零个长字符串组成。 目的不仅是捕获事件(零中断),而且是事件本身的定量表征。但是,传感器受到限制,因此即使“真实性”为非零,有时也会记录为零。因此,比较传感器时必须包括零。 传感器B可能比传感器A更为敏感,我希望能够从统计角度进行描述。对于此分析,我没有“真相”,但是我有一个独立于传感器A&B的传感器C。因此,我的期望是A / B与C之间更好的协议表示与“真相”的更好协议。(这似乎有些不稳定,但您必须相信我-根据其他有关传感器的研究,我在这里站稳了脚跟)。 因此,问题在于如何量化“时间序列的更好一致性”。相关性是显而易见的选择,但是会受到所有这些零(不能遗漏)的影响,当然也会受到最大值的不成比例的影响。也可以计算RMSE,但在接近零的情况下,RMSE的权重将强于传感器的行为。 问题1:将对数缩放应用于非零值然后在时序分析中与零组合的最佳方法是什么? 问题2:对于这种类型的时间序列分析,您可以推荐哪些“最佳实践”,其中非零值的行为是重点,但是零值占主导地位并且不能被排除?

3
如何使用带有卡尔曼滤波的DLM进行预测
有人可以引导我看一个有关如何在时间序列上的R中使用DLM卡尔曼滤波的示例。假设我有一个这些值(季度值和年度季节性);您将如何使用DLM预测下一个值?顺便说一句,我是否有足够的历史数据(最小值是多少)? 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 我正在寻找R代码食谱样式的逐步说明类型的答案。预测的准确性不是我的主要目标,即使我没有足够的数据,我只是想学习能为我提供2011年第二季度数字的代码序列。

4
R中具有自相关误差的简单线性模型
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 8个月前关闭。 如何在R中具有自相关误差的线性模型拟合?在stata中,我将使用prais命令,但找不到R等效项...

1
如何在R中的auto.arima()中设置xreg参数?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我正在做一个具有一个时间序列的小型项目,该序列可测量(每日)客户访问数据。我的协变量是一个连续变量,Day用于测量从数据收集的第一天起已经经过了多少天,还有一些虚拟变量,例如该天是否是圣诞节以及星期几。 我的部分数据如下所示: Date Customer_Visit Weekday Christmas Day 11/28/11 2535 2 0 1 11/29/11 3292 3 0 2 11/30/11 4103 4 0 3 12/1/11 4541 5 0 4 12/2/11 6342 6 0 5 12/3/11 7205 7 0 6 12/4/11 3872 1 0 7 12/5/11 3270 2 0 …

2
通过时间进行逻辑回归更新分类概率
我正在建立一个预测模型,该模型可以预测学生在学期末的成功概率。我对学生是成功还是失败特别感兴趣,其中成功通常被定义为完成课程并获得总分的70%或更多。 当我部署模型时,随着更多信息的获得,成功概率的估计需要随着时间的推移而更新-理想的情况是发生某种事情后立即发生,例如学生提交作业或获得一项成绩时。这种更新对我来说听起来像是贝叶斯,但是考虑到我在教育统计方面的训练,这有点超出我的舒适范围。 到目前为止,我一直在使用逻辑回归(实际上是套索)与包含基于周快照的历史数据集。由于每个学生都有观察值,因此该数据集具有相关的观察值;一个学生的观察结果是相关的。我不是在特定学生的每周观察中专门建模相关性。我相信我只需要在推论环境中考虑一下,因为标准误会太小。我认为-但对此不确定-从相关观察得出的唯一问题是,当我交叉验证以将聚类观察保留在数据的一个子集中时,我需要格外小心,这样我就不会根据对模型已经见过的人的预测,人为地降低样本外错误率。ŤË ř 米大号ë Ñ 克吨ħ / 7TermLength/7TermLength/7 我正在使用R的glmnet程序包对逻辑模型进行套索处理,以生成成功/失败的可能性,并自动为特定课程选择预测变量。我一直使用周变量作为因素,与所有其他预测变量进行交互。我认为这与仅估计基于周的单个模型在总体上并没有什么不同,除了它可以使我们了解整个期间中可能存在一些通用模型,这些模型可以在不同星期通过各种风险调整因子进行调整。 我的主要问题是:是否有一种更好的方法来随时间更新分类概率,而不是将数据集分为每周(或其他基于间隔的)快照,引入与其他要素交互的时间周期因子变量,以及使用累积功能(累积的积分,上课的累积天数等)? 我的第二个问题是:我是否在这里缺少与相关观测值相关的预测建模的关键内容? 我的第三个问题是:考虑到我每周做快照,如何将其概括为实时更新?我正在计划仅在当前的每周时间间隔内插入变量,但这对我来说似乎很麻烦。 仅供参考,我受过应用教育统计方面的培训,但很早以前就拥有数学统计方面的知识。如果可以的话,我可以做一些更复杂的事情,但是我需要用相对容易理解的术语来解释。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.