功能主成分分析(FPCA):这是怎么回事?


21

功能主成分分析(FPCA)是我偶然发现且从未了解的内容。这是什么一回事呢?

请参见Shang,2011年的“功能主成分分析调查”,我在此引用:

由于“维数的诅咒”,PCA在分析功能数据时遇到了严重的困难(Bellman 1961)。“维数的诅咒”源自高维空间中的数据稀疏性。即使PCA的几何特性仍然有效,并且即使数值技术提供了稳定的结果,样本协方差矩阵有时也不能很好地估计总体协方差矩阵。为了克服这一困难,与PCA相比,FPCA提供了更多的信息来检查样本协方差结构[...]

我就是不明白。本文描述的缺点是什么?PCA难道不是处理“维数诅咒”等情况的最终方法吗?

Answers:


7

的确,正如您在问题中所述以及@tdc在其答案中所述,即使在PCA的几何特性仍然有效的情况下,如果尺寸非常大,则协方差矩阵也不再是实际总体协方差的良好估计。


有一篇非常有趣的论文“ fMRI数据的功能主成分分析”pdf),他们使用功能性PCA可视化了差异:

与其他探索性技术一样,目标是提供初步评估,以便在选择合适的模型之前让数据有机会“为自己说话”。[...]

在论文中,他们解释了他们是如何做到的,并提供了理论依据:

这种方法的决定性优势在于,可以在选择基函数集时确定一组假设,并通过拟合将误差函数最小化。这些假设将比预先确定的血液动力学功能和一系列事件或条件(如F-masking)的规范要弱,因此保留了该程序的探索性;但是,这些假设可能仍然足够严格,足以克服普通PCA的困难。


我正在努力了解FPCA背后的逻辑;我看了您引用的论文,但仍然感到困惑。该设置是数据矩阵是大小与Ñ观测时间序列的长度» Ñ。使用PCA,可以找到协方差矩阵的第一个t- long特征向量。声称这将是非常嘈杂的。FPCA的解决方案是近似与每个时间序列ķ基函数(ķ « ),然后在基函数空间中执行PCA。正确?如果是这样,它与平滑每个时间序列然后运行标准PCA有什么不同?为什么要起一个特别的名字?ñ׍ñŤñŤķķŤ
变形虫说恢复莫妮卡2015年

在阅读了有关它的更多内容之后,我决定发布自己的答案。也许您会感兴趣。我当然会感谢任何其他见解。
变形虫说恢复莫妮卡

24

我发现“功能PCA”是一个不必要的混淆概念。根本不是单独的事情,它是应用于时间序列的标准PCA。

ñŤñ׍Ťñ201000Ť

绝对可以在这里应用标准PCA。显然,在您的报价中,作者担心得出的本征时间序列会太吵。这确实可以发生!解决该问题的两种明显方法是(a)平滑PCA之后的结果本征时间序列,或(b)平滑进行PCA之前的原始时间序列。

ķŤķ

关于FPCA的教程通常会进行冗长的讨论,以讨论如何将PCA推广到无限维的功能空间,但这与实际的相关性完全超出了我的范围,因为在实践中,功能数据始终是离散的。

下面是拉姆齐和西尔弗曼向视图“功能数据分析”教材,这似乎是的“功能数据分析”,包括柔性印刷电路组件明确专着:

FPCA Ramsay和Silverman

可以看到,在“离散数据”(点)上执行PCA与在傅立叶基础(线)上在相应功能上进行FPCA几乎具有相同的效果。当然,可以先执行离散PCA,然后在相同的傅立叶基础上拟合一个函数。它或多或少会产生相同的结果。

Ť=12ñ>Ť


2
在稀疏不规则采样的轨迹(例如纵向数据)的情况下,FPCA比“ 插值然后平滑生成的本征时间序列 ” 要复杂得多。例如,即使有人以某种方式获得本征分量,也无法很好地定义稀疏数据的投影得分。参见例如:Yao等。JASA2005。FPCA被授予用于定期进行密集采样的过程,实际上是PCA,顶部具有一些平滑度惩罚。
usεr11852恢复单胞菌说,

谢谢@usεr11852(+1)。我需要抽出时间再次研究它。我将尝试查找您引用的论文,然后返回此答案。
变形虫说恢复莫妮卡

@amoeba,这听起来几乎与离散傅立叶变换有关,您可以在其中恢复复杂波/时间序列的分量波?
罗素·里奇

9

我与Jim Ramsay在FDA一起工作了几年,所以我也许可以对@amoeba的答案进行一些澄清。我认为从实际的角度来看,@ amoeba基本上是正确的。至少,这是我在研究FDA之后最终得出的结论。但是,FDA框架提供了一个有趣的理论见解,说明了为何对本征向量进行平滑处理不仅仅只是一个麻烦。事实证明,函数空间中的优化受制于包含平滑度损失的内积,从而给出了基样条的有限维解。FDA使用了无穷维函数空间,但分析并不需要无数维。这就像高斯进程或SVM中的内核技巧。实际上,这很像内核技巧。

拉姆齐(Ramsay)的原始工作是处理数据中的主要故事很明显的情况:这些函数或多或少是线性的,或多或少是周期性的。标准PCA的主要特征向量将仅反映函数的整体水平和线性趋势(或正弦函数),基本上告诉我们我们已经知道的知识。有趣的特征在于残差,这些残差现在是列表顶部的几个特征向量。并且由于每个随后的特征向量必须与先前的特征向量正交,因此这些构造越来越依赖于分析的伪像,而较少依赖于数据的相关特征。在因子分析中,倾斜因子旋转旨在解决此问题。Ramsay的想法不是旋转组件,而是以更好地反映分析需求的方式更改正交性的定义。这意味着,如果您关注周期性成分,则可以在d3-dd2

可能有人反对,用OLS消除趋势并检查该操作的残差会更简单。我从未相信FDA的增值值得该方法的巨大复杂性。但是从理论上讲,值得考虑所涉及的问题。我们对数据所做的一切都使事情变得混乱。即使原始数据是独立的,OLS的残差也是相关的。平滑时间序列会引入原始序列中不存在的自相关。FDA的想法是确保我们从初始趋势下降中获得的残差适合于感兴趣的分析。

您必须记住,FDA起源于80年代初期,当时正在积极研究样条功能-想想Grace Wahba和她的团队。从那时起,出现了许多处理多元数据的方法,例如SEM,增长曲线分析,高斯过程,随机过程理论的进一步发展等等。我不确定FDA是否仍然是解决其问题的最佳方法。另一方面,当我看到声称是FDA的应用时,我常常想知道作者是否真的了解FDA试图做什么。


+1。糟糕,我仅在偶然的情况下才注意到您的答案(其他人在这里在我的答案下方留下了评论,然后向下滚动)。非常感谢您的贡献!我认为我需要抽出时间对此做更多的阅读,并考虑一下您所说的与内核技巧的相似性。听起来确实合理。
变形虫说恢复莫妮卡

5

我不确定FPCA,但要记住的一件事是,在极高的尺寸中,会有更多的“空间”,并且空间中的点开始看起来是均匀分布的(即,所有事物都与其他事物相距甚远)。此时,协方差矩阵将开始看起来基本均匀,并且将对噪声非常敏感。因此,它成为对“真实”协方差的错误估计。也许FPCA会以某种方式解决这个问题,但我不确定。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.