如何解释时间序列数据上的PCA?


19

Freeman et al。,2014年(最近的免费pdf 可在实验室网站上找到)中我试图理解PCA在最近的期刊文章“使用集群计算大规模地映射大脑活动”中的用法。他们在时间序列数据上使用PCA,并使用PCA权重创建大脑图。

的数据是试平均成像数据,存储为矩阵(称为Ý在纸)与ñ体素(或成像位置在脑中)的时间点(单一刺激的长度到大脑) 。Y^n×t^

他们使用SVD得出(表示矩阵转置)。VV

Y^=USV
VV

作者指出

主成分(的列)是长度为向量,而得分(的列)是长度为(体素的数量)的向量,描述了每个体素在方向上的投影。由相应组件给出,在体积上形成投影,即全脑图。 ü ÑVt^Un

因此,PC是的长度的矢量。如何解释PCA教程中通常表达的“第一个主要成分解释了最多的差异”?我们从具有许多高度相关的时间序列的矩阵开始-单个PC时间序列如何解释原始矩阵中的方差?我了解整个“点的高斯云到变化最大的轴的旋转”,但是不确定这与时间序列的关系。作者在陈述时所指的方向是什么:“分数(U的列)是长度为n的向量t^Un (体素数),描述每个体素在相应分量给定的方向上的投影”?主分量时程如何具有方向?

要查看由主成分1和2的线性组合以及相关的脑图得出的时间序列的示例,请转到以下链接,然后将鼠标悬停在XY图中的点上。

弗里曼等。

我的第二个问题与他们使用主成分分数创建的(状态空间)轨迹有关。

这些通过取第一分数(在我上面已经概述的“视动”的例子的情况下)产生并投射单个试验(用于创建上述试验平均矩阵)到由等式主子空间:

J=UY.

从链接的电影可以看到,状态空间中的每条迹线代表整个大脑的活动。

与关联前两台PC得分的XY图的图形相比,有人能提供状态空间电影的每个“帧”意味着什么的直觉。在给定的“框架”下,将一个试验置于XY状态空间中的一个位置,将另一个试验置于另一个位置,这意味着什么?电影中XY绘图位置与问题第一部分提到的链接图中的主成分迹线有何关系?

Freeman等。


1
+1我编辑了您的问题,看看这里如何格式化tex方程。除此之外,我非常了解该论文,因此将在以后进行回复。
变形虫说恢复莫妮卡

1
这并不是OP想要的,但是从时间序列数据中获取主要成分时,可能会很方便,因为我一直在这样做。我通常喜欢将PCA解释为Karhunen-Loève扩展:将给定的时间序列(您应用PCA的不同时间序列)表示为不相关的时间序列(即主要成分)的线性组合。在这种情况下,每个时间序列的权重由从协方差矩阵获得的特征向量给出。Xt
内斯托尔·

1
(我点的更深入的解释请参见本astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf
内斯托尔

1
我向您的问题添加了您所指的一些屏幕截图。
变形虫说恢复莫妮卡2014年

您是如何添加图片的?
statHacker 2014年

Answers:


16

Q1:PC时间序列和“最大方差”之间有什么联系?

它们是分析这些数据是针对每个数据点Ñ神经元,因此可以想到这一点如在数据点Ñ维空间- [R Ñ。正如您所知,这是“点云”,因此执行PCA就是寻找最大方差的方向。我更喜欢将这些方向(它们是协方差矩阵的特征向量)称为“主轴”,将数据在这些方向上的投影称为“主分量”。t^nt^nRn

当分析时间序列,唯一除了这个画面是点被有意义地排序,或编号(从),而不是简单地被一个无序集合的点。这意味着,如果我们采用单个神经元的发射速率(R n中的一个坐标),则其值可以绘制为时间的函数。同样,如果我们取一个PC(其是从投影ř Ñ一些线),那么它也有值,并且可以绘制为时间的函数。因此,如果原始功能是时间序列,那么PC也是时间序列。1t^RnRnt^

我同意@Nestor的上述解释:每个原始功能都可以看作是PC的线性组合,并且由于PC之间彼此不相关,因此可以将它们视为原始功能分解成的基本功能。有点像傅立叶分析,但是我们没有为正弦和余弦确定固定的基础,而是为该特定数据集找到了“最合适的”基础,从某种意义上说,第一台PC占了最大的方差等。

“最大的差异”在这里意味着,如果您仅采用一个基函数(时间序列)并尝试使用它来近似所有功能,那么第一台PC将会做得最好。因此,这里的基本直觉是,第一台PC是最适合所有可用时间序列的基本功能时间序列,依此类推。


为什么在Freeman等人的文章中如此。如此混乱?

Freeman等。分析数据矩阵Ÿ与行变量(即神经元)(!),而不是在列。请注意,它们减去行均值,这很有意义,因为变量通常在PCA之前居中。然后,他们执行SVD:Ý = Ü 小号V使用I以上主张的术语,列ü是主轴(方向在ř Ñ)和列小号V是主成分(的时间序列的长度)。Y^

Y^=USV.
URnSVt^

您引用Freeman等人的句子。确实令人困惑:

主成分(的列)是长度矢量,并且评分(的列ü)是长度的矢量Ñ(数目的体素),描述由相应的组件给定的方向上的每个体素的投影,在体积上形成投影,即全脑图。Vt^Un

VUnt^t^U

我觉得这很令人困惑,因此我建议忽略他们对单词的选择,而只看一下公式。从现在开始,我将继续使用我喜欢的术语,而不是Freeman等人。使用它们。


Q2:状态空间的轨迹是什么?

UY^t^

Yt^

Y


我在以下评论中问了这个问题,但@amoeba可能有帮助吗?第一个主成分权重矢量只是在所有体素上崩溃的平均时间序列吗?如果这是平均值,则结果得分最小,以适合各个数据迹线。–
statHacker 2014年

1
简短的回答是没有,所以一般是不平均的时间序列,尽管在许多情况下,它可以说是相当密切的。例如,考虑一下时间序列的集合,这些时间序列都是具有不同斜率(正负)的直线都经过零。那么平均时间序列大约为零。但是第一台PC将是强线性线路。顺便说一句,我认为这是一个很好的问题,如果您想要更多的细节和/或数字,请(再次)作为一个单独的问题提出。只是要确保不要重复有关Freeman等人的问题。将它们分开。
变形虫说恢复莫妮卡2014年

(或其他对响应感兴趣的人)-关于第二季度,您的意思是“将[每个试验]投射到前两个[PC]上”。在数学上非常清楚的是,U是长度为n个体素的向量,当矩阵乘以长度为n的矩阵Y时,我们将维数降到第1个2个PC。您能提供关于U是分数矩阵(即每个体素与前2个PC的距离)的直觉吗?我是否可以将J的每个时间点都视为上述第一个图像的二维图中每个体素位置的投影的2-d平均值?
statHacker 2014年

UU

SV

1

pVt^

所以ÿÑ ×Y^n×t^Un×nVt^×t^

关于第二个问题。给出的方程是

J=UTY

J×t

tt^J

t^

我以前没有处理过着色方法,并且我要花一点时间才能有信心对此方面发表评论。我发现与图4c相似的评论令人困惑,因为在那里通过逐个体素回归获得了着色。而在图6中,每条迹线都是全图像伪像。除非我直言不讳,否则我认为这就是该时间段内刺激的方向,如图中的注释所示。


上面的第一个数字是每次进行相同视觉刺激的实验。这些数据有不同的人物和电影。上面的第二个图是一个不同的实验,其中刺激是具有不同方向的视觉刺激,上面第二个图中的迹线被着色以简单地对应于不同的视觉刺激方向。
statHacker 2014年

此外,你是正确的,原来的矢量切碎高达长度ŧYT^ \n

你已经通过讨论让我感到困惑小号公式中Ĵ = üÿVS
J=UY.
U

我已经重新整理了东西。抱歉,是我整理出其他东西之前遗留下来的。
推测

感谢你的帮助。第一个主成分权重矢量只是在所有体素上崩溃的平均时间序列吗?如果这是平均值,则结果得分最小,以适合各个数据迹线。
statHacker 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.