可以将PCA应用于时间序列数据吗?


22

我知道主成分分析(PCA)基本上可以应用于横截面数据。通过将年份指定为时间序列变量并正常运行PCA,PCA能否有效地用于时间序列数据?我发现动态PCA适用于面板数据,并且Stata中的编码是针对面板数据而非时间序列设计的。是否有适用于时间序列数据的任何特定类型的PCA?

更新。让我详细解释。

目前,我正在构建印度基础设施指数,该指数包含道路长度,铁路路线长度,发电量,电话用户数量等变量。对于一个国家/地区,我在22年内拥有12个变量。尽管我已经审查了将PCA应用于时间序列甚至面板数据的论文,但PCA是为假设iid的横截面数据而设计的。面板和横截面数据违反了该规则,并且PCA未考虑其中的时间序列维度。我看到动态PCA仅应用于面板数据。我想知道是否有在时间序列上应用的特定PCA或运行将年份定义为时间序列变量的静态PCA可以完成这项工作?


2
时间序列通常将奇异频谱分析(SSA)称为PCA。en.wikipedia.org/wiki/Singular_spectrum_analysis
Vladislavs Dovgalecs 2015年

1
请查看右侧边栏(->)中涉及PCA和时间序列的一些帖子。如果您的问题有任何答案,请在此处添加评论的链接,但如果没有答案,则可以说明问题与其他问题不同的具体方式。
Glen_b-恢复莫妮卡2015年

他们都没有回答关于时间序列的pca问题。有关该主题的特定查询要么与科学有关,要么没有答案。
妮莎·西蒙

5
PCA作为数据转换,降维,探索和可视化工具,没有做任何假设。您可以对任何数据(包括时间序列数据)运行它。实际上,PCA通常用于时间序列数据(有时称为“功能PCA”,有时却不称为)。我什至不知道“动态PCA”和“静态PCA”的含义。不用担心,使用标准PCA。
变形虫说恢复莫妮卡2015年

您可能想考虑使用专门为时间序列设计的功能PCA。R中的FDA软件包实施了fPCA。您将能够找到多元fPCA。
安妮

Answers:


8

一种方法是采用12个变量的第一次差值来确保平稳性。然后计算协方差矩阵并对其执行PCA。这将是整个时间范围内的某种平均PCA,并且不会说出不同时滞如何相互影响。但这可能是一个很好的起点。12×12

如果您也有兴趣分解时域,我会按照评论中的建议检查SSA

当您的序列是(假设的)平稳的时,单个协方差矩阵是有意义的。如果您的数据是1或更高阶的整数(我怀疑是这样),则对单个协方差矩阵的估计将不会产生一致的结果。例如,随机游走被整合为1阶,并且两个随机游走的估计协方差没有说明它们的共同运动,这里需要进行协整分析。

正如评论中所建议的那样,PCA本身并不关心平稳性,因此您可以向PCA输入任何正半定矩阵,并且在PCA感觉中PC分解会很好。

但是,如果您估计的协方差矩阵对数据没有任何意义,那么PCA当然也不会。


1
+1。“第一次时差”是什么意思?
变形虫说莫妮卡(Reonica Monica)

我的意思是第一个差异,因此对于十二个x中的每个x,我都会做x_t-x_t-1。
Duffau

因此,您建议对每个时间序列的时间导数进行PCA,而不是对时间序列本身进行PCA。那很有意思; 为什么这是您的第一个建议?
变形虫说莫妮卡(Monica)恢复2015年

有两个原因:1)为了使协方差估计保持一致,正态截面假设是两个随机变量是独立且均匀分布的(iid)。这样可以确保样本均值与期望值的收敛,即所谓的大数定律(LLN)。在时间序列分析中,两个随机过程是同义的假设是限制性的。因此,它被平稳性(许多不同类型)的概念所取代。为了使LLN保持一致并且协方差估计保持一致,这两个序列需要具有共同的平稳分布。
Duffau

如果每个随机过程都是静止的,那么(我最肯定的是)它们具有共同的平稳性,因此协方差估计是有意义的。首先的区别是计量经济学的一种标准技术,可以使时间序列“更加平稳”。从这里开始,估算和PCA是直接的。简而言之,因为很容易:-) ....好的,没有第二个原因..
Duffau 2015年

2

是的,按时间顺序进行PCA一直在金融工程(定量金融)和神经病学领域进行。

XŤ×pŤp[RŤ=日志PŤ-日志PŤ-1=日志PŤ/PŤ-1p×pXŤ×Ť天的协方差矩阵,其中有成行的资产,以便将关联在一起的天折叠成一台PC,因为通常的想法是,天可以是多余的-当将数据馈入神经网络时,您不希望数据行是多余的或要关联的要素(您希望它们是正交的),因为神经网络会浪费时间来学习关联。但是,这种方法并不专注于自相关。

γ=Ť/ñXλ+ÿ=FñβX^=ÿ-ÿ^ÿ=F1β

在神经病学中,PCA按时间序列运行,以获取从脑电图获得的不同波段中的动作电位。将动作电位转换为正交(不相关)的PC评分向量并将PC输入其他分析是在行为遗传学复杂性状的统计遗传建模中提高统计能力的主要方法(因为表型为双极性,新颖性寻找,精神分裂症,精神分裂症经常重叠)。澳大利亚大型的遗传双胞胎研究有助于解析行为遗传学中的这些重叠特征,因为如果同卵双胞胎在一起饲养(在同一个家庭中长大)之间存在疾病差异,则因果推论可能指向暴露于不同环境中的情况。他们年龄较大,而不是相同的遗传基因。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.