PCA如何处理自相关数据?


9

仅仅因为一些通讯员提出了一个有关自相关计算方法的有趣问题,我才开始研究它,几乎不了解时间序列和自相关。

记者安排了他的数据(一个时间序列的数据点),每个数据点之间一个时滞,因此他拥有一个数据的矩阵(据我),其中第一行是原始数据,第二行是原始数据数据移动了时间单位,下一行又移动了一个,依此类推。我还通过将末端粘到尾巴上来实现了这一点,因此制作了“圆形”数据集。3232×321个

然后,为了寻找可能产生的结果,我计算了相关矩阵,并由此得出了主要成分。出乎意料的是,我得到了一个频率分解的图像,并且(再次与其他数据)得到了一个频率,说在数据中有一个周期位于第一主成分中,而在四个数据中具有四个周期位于第二个PC中,依此类推。 (我有台特征值 “相关” PC326>1个)。首先,我认为这取决于输入数据,但是现在,我假设通过具有循环移位的数据集的特殊构造(也称为“ Toeplitz”矩阵)来系统地采用这种方式。将PC解决方案旋转为varimax或其他旋转条件会产生稍微不同且可能有趣的结果,但总的来说似乎提供了这种频率分解。

这是根据点数据集制作的图片的链接。这些曲线仅由因子矩阵的载荷绘制而成:一条曲线是一个因子的载荷。第一个PC1的曲线应显示最高振幅(大致是因为它具有最大的载荷平方和)32

问题:

  • Q1:这是设计使然吗?(具有这种类型的数据集的PCA)
  • 问题2:这种方法确实确实可以用于严肃的频率/波长分析方法吗?

[更新]这是数据集(希望它可以为您复制)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

感谢@amoeba和所做的大量编辑。我只看到两个错误,以后想编辑,现在这个问题看起来好多了!
Gottfried Helms

Answers:


4

让我将先前的评论转换为答案。

您是否认为数据矩阵中的行是变量还是样本?我将假设它们是样本:即您有不同的时间序列(样本)。ñ=32

然后,如果所有行都是相同的,但每个行仅循环移位位置,则由所有行对之间的点积组成的数据的克矩阵将具有Toeplitz结构:高值接近于对角线并逐渐减小到零值。Toeplitz矩阵的特征向量具有连续的傅里叶模式(并且Gram矩阵的特征向量是主要成分,直至缩放),所以您的Q1 是肯定的:当PC出现正弦波且频率增加时,这并不奇怪。ñ=321个ñ×ñ

不知道它是否有用(第二季度)。以我的经验,它似乎是一个令人讨厌的人工制品。也就是说,人们有了一些数据,从PCA中得到了类似于傅里叶模式的数据,并开始怀疑它们的含义,而这仅仅是由于原始时间序列中的一些时间偏移。


好,非常好,谢谢!是的,我认为数据沿行排列。第二季度的到来还因为我至今还不了解傅里叶分析的工作原理-偶然地,这可能只是迈出了一步来获得一些直觉(但是这种含糊的希望在这里似乎真的无济于事...)
Gottfried Helms 2014年

顺便说一句,您介意分享您的32值时间序列吗?我想插入一个显示Gram矩阵的图形,我可以直接对您的数据进行处理。
amoeba 2014年

您在我的问题中看到链接了吗?它重定向到我使用exce.l制作的网页。它具有4或5个子页面,安装时可通过屏幕底部选项卡栏上的“ firefox”选择这些子页面。第一个子页面显示数据列表。但是垂直方向:应该将其作为新表的第一行,并在向右循环时添加31行。如果那不方便,我还可以将数据添加到我的问题中……
Gottfried Helms 2014年

哦,我没有意识到这是一个完整的在线电子表格,而不仅仅是屏幕截图!谢谢。
amoeba 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.