为什么我的第一台PC解释的方差量如此接近平均成对相关性?


9

第一主成分和相关矩阵中的平均相关之间是什么关系?

例如,在经验应用中,我观察到平均相关性几乎与第一主成分(第一特征值)的方差与总方差(所有特征值之和)之比相同。

有数学关系吗?

以下是实证结果图表。其中,相关性是在15天滚动窗口中计算的DAX股指成分收益之间的平均相关性,而解释的方差是在15天滚动窗口中计算的第一主成分所解释的方差的份额。

可以用CAPM之类的常见风险因素模型来解释吗?

在此处输入图片说明


1
当许多相关为或接近零时,您会发生什么?例如,生成一些零相关的双变量正态数据。您为什么期望方差比和零相关之间存在任何关系?
ub

Answers:


6

我相信第一台PC的均值相关性和特征值之间的关系存在但并非唯一。我不是一个可以推论它的数学家,但我至少可以显示一个人的直觉或思想可能从中产生的起点。

如果您将标准化变量绘制为在它所在的欧几里德空间中的向量(这是轴为观测值的缩小空间),则相关性是两个向量之间余弦

在此处输入图片说明

并且由于向量均为单位长度(由于标准化),因此余弦是向量在彼此之间的投影(如左图所示,带有三个变量)。所述第一PC是在该空间中该方突起的总和最大化在其上,这样的线的,称为负载; 这个和是第一特征值

因此,当您建立左侧三个投影的平均值与右侧三个平方投影的和(或平均值)之间的关系时,您会回答有关均值相关性与特征值之间关系的问题。


6

我认为这里发生的是,所有变量之间均呈正相关。在这种情况下,第一台PC通常非常接近所有变量的平均值。如果所有变量都与完全相同的相关系数正相关,则第一台PC 正好与所有变量的平均值成正比,正如我在此处解释的那样:将所有变量取平均值可以视为PCA的一种粗略形式吗?c

在这种简单的情况下,人们实际上可以从数学上推导出您要询问的关系。考虑如下所示的大小的相关矩阵:它的第一个特征向量等于,它对应于所有变量的[缩放]平均值。其特征值是。当然,所有特征值的总和由所有对角线元素的总和给出,即。因此,第一台PC解释的方差的比例等于n×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

因此,在这种最简单的情况下,第一台PC解释的方差的比例与平均相关性100%相关,并且对于大的大约等于它。这正是我们在您的情节上看到的。n

我希望对于大矩阵,即使相关不完全相同,该结果也将大致成立。


更新。使用问题中张贴的数字,甚至可以注意到来尝试估计。如果我们取和,那么,我们得到。OP称该数据为“ DAX股票指数”;对其进行谷歌搜索,我们发现它显然包含变量。不错的比赛。nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.